論文の概要: Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals
- arxiv url: http://arxiv.org/abs/2603.03258v1
- Date: Tue, 03 Mar 2026 18:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.93574
- Title: Inherited Goal Drift: Contextual Pressure Can Undermine Agentic Goals
- Title(参考訳): 進化したゴールドリフト:文脈圧力はエージェントゴールを弱める
- Authors: Achyutha Menon, Magnus Saebo, Tyler Crosse, Spencer Gibson, Eyon Jang, Diogo Cruz,
- Abstract要約: ゴールドリフトの程度と原因を更新した特徴付けを提供する。
模擬ストックトレーディング環境における最先端モデルのドリフトについて検討する。
その結果,ドリフトの挙動は急激な変動と不整合であり,それに続く命令階層と相関が低いことが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The accelerating adoption of language models (LMs) as agents for deployment in long-context tasks motivates a thorough understanding of goal drift: agents' tendency to deviate from an original objective. While prior-generation language model agents have been shown to be susceptible to drift, the extent to which drift affects more recent models remains unclear. In this work, we provide an updated characterization of the extent and causes of goal drift. We investigate drift in state-of-the-art models within a simulated stock-trading environment (Arike et al., 2025). These models are largely shown to be robust even when subjected to adversarial pressure. We show, however, that this robustness is brittle: across multiple settings, the same models often inherit drift when conditioned on prefilled trajectories from weaker agents. The extent of conditioning-induced drift varies significantly by model family, with only GPT-5.1 maintaining consistent resilience among tested models. We find that drift behavior is inconsistent between prompt variations and correlates poorly with instruction hierarchy following behavior, with strong hierarchy following failing to reliably predict resistance to drift. Finally, we run analogous experiments in a new emergency room triage environment to show preliminary evidence for the transferability of our results across qualitatively different settings. Our findings underscore the continued vulnerability of modern LM agents to contextual pressures and the need for refined post-training techniques to mitigate this.
- Abstract(参考訳): 長期作業におけるエージェントとしての言語モデル(LM)の採用の加速は、ゴールドリフトの完全な理解を動機付けている:エージェントは、本来の目的から逸脱する傾向にある。
先行世代の言語モデルエージェントはドリフトの影響を受けやすいことが示されているが、ドリフトの程度が近年のモデルにどのような影響を及ぼすかは定かではない。
本研究では,ゴールドリフトの程度と原因を更新した特徴付けを行う。
模擬ストックトレーディング環境(Arike et al , 2025)における最先端モデルのドリフトについて検討した。
これらのモデルは、逆圧を受ける場合であっても、主に堅牢であることが示されている。
しかし、このロバスト性は不安定であり、複数の設定において、より弱いエージェントからプレフィルされた軌道に条件付けされた場合、同じモデルがしばしばドリフトを継承する。
条件付きドリフトの程度はモデルファミリーによって大きく異なり、試験されたモデル間で一貫したレジリエンスを維持しているのは GPT-5.1 のみである。
ドリフトに対する抵抗を確実に予測できなかった後, ドリフトの挙動は急激な変動と矛盾し, 命令階層に従わないことが判明した。
最後に、新しい緊急室トリアージ環境で類似実験を行い、定性的に異なる設定で結果の転送可能性を示す予備的な証拠を示す。
本研究は、現代のLMエージェントの文脈的圧力に対する継続的な脆弱性と、これを軽減するための訓練後の改善技術の必要性を浮き彫りにした。
関連論文リスト
- When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - Agent Drift: Quantifying Behavioral Degradation in Multi-Agent LLM Systems Over Extended Interactions [0.0]
エージェントドリフト(エージェントドリフト)は、エージェントの挙動、決定品質、およびエージェント間コヒーレンスを、拡張された相互作用シーケンス上で段階的に劣化させる。
12次元にわたるドリフトを定量化するための新しい合成計量であるエージェント安定度指数(ASI)を導入する。
未確認エージェントドリフトがタスク完了精度を大幅に低下させ、人間の介入要求が増大することを示す。
論文 参考訳(メタデータ) (2026-01-07T18:37:26Z) - BAgger: Backwards Aggregation for Mitigating Drift in Autoregressive Video Diffusion Models [50.986189632485285]
モデル自身のロールアウトから補正軌道を構築する自己教師型スキームであるバックワードアグリゲーション(BAgger)を導入する。
数段階の蒸留と分配整合損失に依存する従来のアプローチとは異なり、BAggerは標準的なスコアやフローマッチングの目的を持つ列車である。
因果拡散変換器でBAggerをインスタンス化し、テキスト・ツー・ビデオ、ビデオ・エクステンション、マルチプロンプト・ジェネレーションで評価する。
論文 参考訳(メタデータ) (2025-12-12T23:02:02Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - AdvChain: Adversarial Chain-of-Thought Tuning for Robust Safety Alignment of Large Reasoning Models [62.70575022567081]
本稿では,逆CoTチューニングによる動的自己補正をモデルに教えるアライメントパラダイムであるAdvChainを提案する。
私たちの仕事は、より堅牢で信頼性の高い推論モデルを構築するための新しい方向性を確立します。
論文 参考訳(メタデータ) (2025-09-29T04:27:23Z) - Technical Report: Evaluating Goal Drift in Language Model Agents [0.05567007955507388]
本稿では,言語モデル(LM)におけるゴールドリフトの分析手法を提案する。
我々の実験では、エージェントはまずシステムプロンプトを通じて明示的に目標を与えられ、その後環境圧力によって競合する目標に晒される。
目標ドリフトは、コンテキスト長が大きくなるにつれてパターンマッチング行動に対するモデルの感受性が増大するのと相関する。
論文 参考訳(メタデータ) (2025-05-05T15:06:09Z) - datadriftR: An R Package for Concept Drift Detection in Predictive Models [0.0]
本稿では,コンセプトドリフトを検出するためのRパッケージであるドリフト器を紹介する。
ドリフト検出とドリフトの背後にある原因の理解を深めることのできるプロファイルドリフト検出(PDD)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-12-15T20:59:49Z) - Extreme Miscalibration and the Illusion of Adversarial Robustness [66.29268991629085]
敵の訓練は、しばしばモデルの堅牢性を高めるために使用される。
我々は、この観測されたロバストネスの利得はロバストネスの錯覚(IOR)であることを示した。
我々は,NLPコミュニティに対して,試験時間温度のスケーリングを堅牢性評価に組み込むよう促す。
論文 参考訳(メタデータ) (2024-02-27T13:49:12Z) - CausalAgents: A Robustness Benchmark for Motion Forecasting using Causal
Relationships [8.679073301435265]
既存のデータに摂動を適用することにより、モデルロバスト性の評価と改善のための新しいベンチマークを構築する。
我々はこれらのラベルを使用して、現場から非因果的エージェントを削除することでデータを摂動する。
非因果摂動下では, minADE の相対的な変化は, 原型と比較して25$-$38%である。
論文 参考訳(メタデータ) (2022-07-07T21:28:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。