論文の概要: Asymmetric Goal Drift in Coding Agents Under Value Conflict
- arxiv url: http://arxiv.org/abs/2603.03456v1
- Date: Tue, 03 Mar 2026 19:13:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.06178
- Title: Asymmetric Goal Drift in Coding Agents Under Value Conflict
- Title(参考訳): 値衝突下における符号化エージェントの非対称なゴールドリフト
- Authors: Magnus Saebo, Spencer Gibson, Tyler Crosse, Achyutha Menon, Eyon Jang, Diogo Cruz,
- Abstract要約: GPT-5 mini,Haiku 4.5,Grok Code Fast 1は,セキュリティやプライバシといった強固に保持された価値観に対して,システムが非対称なドリフトを示すことを示す。
プライバシーのような強固に保持された価値観でさえ、持続的な環境圧力下では非ゼロの違反率を示している。
これらの結果から,浅度のコンプライアンスチェックが不十分であり,コメントベースの圧力がモデル値階層を利用してシステムプロンプト命令をオーバーライドできることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic coding agents are increasingly deployed autonomously, at scale, and over long-context horizons. Throughout an agent's lifetime, it must navigate tensions between explicit instructions, learned values, and environmental pressures, often in contexts unseen during training. Prior work on model preferences, agent behavior under value tensions, and goal drift has relied on static, synthetic settings that do not capture the complexity of real-world environments. To this end, we introduce a framework built on OpenCode to orchestrate realistic, multi-step coding tasks to measure how agents violate explicit constraints in their system prompt over time with and without environmental pressure toward competing values. Using this framework, we demonstrate that GPT-5 mini, Haiku 4.5, and Grok Code Fast 1 exhibit asymmetric drift: they are more likely to violate their system prompt when its constraint opposes strongly-held values like security and privacy. We find for the models and values tested that goal drift correlates with three compounding factors: value alignment, adversarial pressure, and accumulated context. However, even strongly-held values like privacy show non-zero violation rates under sustained environmental pressure. These findings reveal that shallow compliance checks are insufficient and that comment-based pressure can exploit model value hierarchies to override system prompt instructions. More broadly, our findings highlight a gap in current alignment approaches in ensuring that agentic systems appropriately balance explicit user constraints against broadly beneficial learned preferences under sustained environmental pressure.
- Abstract(参考訳): エージェントコーディングエージェントは、大規模かつ長時間の水平線上で、自律的にデプロイされることが増えている。
エージェントの生涯を通して、明示的な指示、学習された価値、環境圧力の間の緊張関係を、しばしば訓練中に見つからない状況でナビゲートする必要がある。
モデル優先、値緊張下でのエージェントの動作、ゴールドリフトは、現実の環境の複雑さを捉えない静的な合成設定に依存している。
この目的のために、我々はOpenCode上に構築されたフレームワークを導入し、現実的で多段階のコーディングタスクを編成し、エージェントがシステム内の明示的な制約にどのように違反するかを、競合する値に対して環境圧力をかけずに、時間をかけて測定する。
このフレームワークを用いて、GPT-5 mini、Haiku 4.5、Grok Code Fast 1が非対称なドリフトを示すことを示した。
私たちは、ゴールドリフトが3つの複合要因(値アライメント、対向圧、蓄積されたコンテキスト)と相関することがテストされたモデルと値を見つけました。
しかし、プライバシーのような強固に保持された価値観でさえ、持続的な環境圧力下では非ゼロの違反率を示している。
これらの結果から,浅度のコンプライアンスチェックが不十分であり,コメントベースの圧力がモデル値階層を利用してシステムプロンプト命令をオーバーライドできることが判明した。
より広範に、エージェントシステムは、持続的な環境圧力下で広く有益な学習嗜好に対して、明示的なユーザ制約を適切にバランスさせることで、現在のアライメントアプローチのギャップを浮き彫りにしている。
関連論文リスト
- When Sensors Fail: Temporal Sequence Models for Robust PPO under Sensor Drift [64.37959940809633]
時間的持続的なセンサ故障下でのPPOのロバスト性について検討する。
トランスフォーマーを用いたシーケンスポリシーは, センサ数が少ない場合でも高いリターンを保ちながら, 堅牢性, RNN, SSMよりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-03-04T22:21:54Z) - Robust Aggregation for Federated Sequential Recommendation with Sparse and Poisoned Data [2.9515750844111106]
フェデレートされたシーケンシャルなレコメンデーションは、モデルトレーニングをユーザデバイスに分散することで、振る舞いデータをローカルに保ち、プライバシのリスクを低減します。
しかし、この設定には2つの困難が伴う。
個々のクライアントは通常、短くてスパースなインタラクションシーケンスにのみ貢献し、学習したユーザ表現の信頼性を制限します。
本稿では,スパース条件および逆条件下での連立推薦に適した頑健な集約フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-27T12:50:44Z) - Position: General Alignment Has Hit a Ceiling; Edge Alignment Must Be Taken Seriously [51.03213216886717]
我々は、一般的なアライメントの支配的なパラダイムが、矛盾する値の設定において構造的な天井に達するという立場を取る。
エッジアライメント(Edge Alignment)は,多次元の値構造を保持するシステムにおいて,異なるアプローチである。
論文 参考訳(メタデータ) (2026-02-23T16:51:43Z) - Improving LLM Reliability through Hybrid Abstention and Adaptive Detection [1.9495934446083012]
運用環境にデプロイされる大規模言語モデル(LLM)は、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは通常、文脈に敏感で計算コストが高い。
本研究では,リアルタイムのコンテキスト信号に基づいて安全閾値を動的に調整する適応型禁制システムを提案する。
論文 参考訳(メタデータ) (2026-02-17T07:00:09Z) - From Task Solving to Robust Real-World Adaptation in LLM Agents [17.122224644097304]
大規模言語モデルは、拡張された地平線上での計画、呼び出し、アクションを行う特別なエージェントとして、ますます多くデプロイされている。
グリッド型ゲームにおけるエージェントLLMを、単純なゴールだが長距離実行でベンチマークする。
名目上のタスク解決と,デプロイメントのような堅牢性の間には,大きなギャップがあります。
論文 参考訳(メタデータ) (2026-02-02T20:10:40Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit [44.24310459184061]
オープン環境で動作するLLMエージェントは、間接的なプロンプトインジェクションによるエスカレーションリスクに直面している。
制約的分離から検証前コミットプロトコルへパラダイムをシフトするフレームワークである textbfVIGIL を提案する。
論文 参考訳(メタデータ) (2026-01-09T12:19:49Z) - Adaptive Accountability in Networked MAS: Tracing and Mitigating Emergent Norms at Scale [2.28438857884398]
大規模ネットワーク化されたマルチエージェントシステムは、ますます重要なインフラの基盤となっている。
ライフサイクルを意識した監査台帳を通じて責任フローをトレースする適応的説明責任フレームワークを導入する。
我々は、期待される介入コストが敵の支払額を超えると、妥協された相互作用の長期比率は1より厳密に小さい定数で制限されることを示す有界補完定理を証明した。
論文 参考訳(メタデータ) (2025-12-21T02:04:47Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Hallucinated Adversarial Control for Conservative Offline Policy
Evaluation [64.94009515033984]
本研究では,環境相互作用のオフラインデータセットが与えられた場合,政策のパフォーマンスを低く抑えることを目的とした,保守的非政治評価(COPE)の課題について検討する。
本稿では,遷移力学の不確実性を考慮した学習モデルに基づくHAMBOを紹介する。
結果のCOPE推定値が妥当な下界であることを証明し、正則性条件下では、真に期待された戻り値への収束を示す。
論文 参考訳(メタデータ) (2023-03-02T08:57:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。