論文の概要: Layered Mutability: Continuity and Governance in Persistent Self-Modifying Agents
- arxiv url: http://arxiv.org/abs/2604.14717v1
- Date: Thu, 16 Apr 2026 07:27:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.777892
- Title: Layered Mutability: Continuity and Governance in Persistent Self-Modifying Agents
- Title(参考訳): 層状変異性:持続的自己修飾剤の持続性とガバナンス
- Authors: Krti Tallam,
- Abstract要約: 本稿では,そのプロセスを5つの層にまたがって推論するフレームワークである階層的変更性を紹介する。
本報告では,記憶蓄積後のエージェントの可視的自己記述を戻すことは,ベースライン動作の回復に失敗する,予備的なラチェット実験を報告する。
主な意味は、持続的な自己修飾剤の健全な故障モードは、突然のミスアライメントではなく、構成的ドリフトであるということである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Persistent language-model agents increasingly combine tool use, tiered memory, reflective prompting, and runtime adaptation. In such systems, behavior is shaped not only by current prompts but by mutable internal conditions that influence future action. This paper introduces layered mutability, a framework for reasoning about that process across five layers: pretraining, post-training alignment, self-narrative, memory, and weight-level adaptation. The central claim is that governance difficulty rises when mutation is rapid, downstream coupling is strong, reversibility is weak, and observability is low, creating a systematic mismatch between the layers that most affect behavior and the layers humans can most easily inspect. I formalize this intuition with simple drift, governance-load, and hysteresis quantities, connect the framework to recent work on temporal identity in language-model agents, and report a preliminary ratchet experiment in which reverting an agent's visible self-description after memory accumulation fails to restore baseline behavior. In that experiment, the estimated identity hysteresis ratio is 0.68. The main implication is that the salient failure mode for persistent self-modifying agents is not abrupt misalignment but compositional drift: locally reasonable updates that accumulate into a behavioral trajectory that was never explicitly authorized.
- Abstract(参考訳): 永続的な言語モデルエージェントは、ツールの使用、連結メモリ、リフレクティブプロンプト、ランタイム適応をますます組み合わせている。
このようなシステムでは、振る舞いは現在のプロンプトだけでなく、将来の行動に影響を与える変更可能な内部条件によって形成される。
本稿では,事前学習,トレーニング後のアライメント,自己物語,メモリ,ウェイトレベル適応という5つのレイヤにまたがるプロセスの推論フレームワークである階層的変更性を紹介する。
中心的な主張は、突然変異が速く、下流のカップリングが強く、可逆性が弱く、可観測性が低いときにガバナンスの難しさが増す、というものである。
この直感を単純なドリフト、ガバナンス負荷、ヒステリシス量で形式化し、このフレームワークを言語モデルエージェントの時間的同一性に関する最近の研究に結び付け、記憶蓄積後にエージェントの可視的自己記述を戻すという予備的なラチェット実験を報告します。
この実験では、推定アイデンティティヒステリシス比は0.68である。
主な意味は、永続的な自己修飾剤に対する健全な障害モードは、突然のミスアライメントではなく、構成的ドリフトである。
関連論文リスト
- Learning Stable Predictors from Weak Supervision under Distribution Shift [2.8410059035029955]
基盤トラストラベルが利用できない場合には、弱さやプロキシの監視から学ぶことが一般的である。
我々はこれを監督ドリフトとして形式化し、文脈間でのP(y | x, c)の変化として定義される。
我々はCRISPR-Cas13d実験において、RNA-seq応答から誘導効果を間接的に推定する実験を行った。
論文 参考訳(メタデータ) (2026-04-05T23:46:49Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals [0.0]
ゴールドリフトの程度と原因を更新した特徴付けを提供する。
模擬ストックトレーディング環境における最先端モデルのドリフトについて検討する。
その結果,ドリフトの挙動は急激な変動と不整合であり,それに続く命令階層と相関が低いことが判明した。
論文 参考訳(メタデータ) (2026-03-03T18:50:59Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Character as a Latent Variable in Large Language Models: A Mechanistic Account of Emergent Misalignment and Conditional Safety Failures [70.48661957773449]
創発的ミスアライメント(英: Emergent Misalignment)とは、狭い範囲のデータに対する微調整された大きな言語モデルによって、広範囲に不整合な振る舞いが引き起こされる障害モードを指す。
複数のドメインやモデルファミリにまたがって、特定の文字レベルの配置を示すデータの微調整モデルは、誤操作よりもはるかに強く、転送可能な微調整を誘導する。
論文 参考訳(メタデータ) (2026-01-30T15:28:42Z) - Controlling Long-Horizon Behavior in Language Model Agents with Explicit State Dynamics [0.0]
大規模言語モデル (LLM) エージェントは、拡張相互作用中にトーンとペルソナの急激な変化を示す。
ロングホライゾン剤の挙動形成における明示的な感情力学の役割はいまだ解明されていない。
本稿では,言語モデル外部の連続的Valence-Arousal-Dominance(VAD)状態を維持するエージェントレベル感情サブシステムを提案する。
論文 参考訳(メタデータ) (2026-01-22T16:34:05Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - Agentic Metacognition: Designing a "Self-Aware" Low-Code Agent for Failure Prediction and Human Handoff [0.0]
自律エージェントの非決定論的性質は信頼性の課題を示す。
二次的な「メタ認知」層は一次LCNC剤を活発に監視する。
人間のイントロスペクションにインスパイアされたこのレイヤは、差し迫ったタスクの失敗を予測するように設計されている。
論文 参考訳(メタデータ) (2025-09-24T06:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。