論文の概要: Training Agents to Self-Report Misbehavior
- arxiv url: http://arxiv.org/abs/2602.22303v1
- Date: Wed, 25 Feb 2026 18:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.370823
- Title: Training Agents to Self-Report Misbehavior
- Title(参考訳): 自己申告ミスに対する研修薬
- Authors: Bruce W. Lee, Chen Yueh-Han, Tomek Korbak,
- Abstract要約: 本稿では,エージェントが秘密裏に誤動作した場合に,目に見える信号を生成するよう訓練する自己犯罪訓練を提案する。
GPT-4.1 と Gemini-2.0 エージェントをトレーニングして、behaving 時に report_scheming() ツールを呼び出します。
自己犯罪は未発見の攻撃率を大幅に低下させる。
- 参考スコア(独自算出の注目度): 6.238288009817414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI agents may pursue hidden goals while concealing their pursuit from oversight. Alignment training aims to prevent such behavior by reinforcing the correct goals, but alignment may not always succeed and can lead to unwanted side effects. We propose self-incrimination training, which instead trains agents to produce a visible signal when they covertly misbehave. We train GPT-4.1 and Gemini-2.0 agents to call a report_scheming() tool when behaving deceptively and measure their ability to cause harm undetected in out-of-distribution environments. Self-incrimination significantly reduces the undetected successful attack rate, outperforming matched-capability monitors and alignment baselines while preserving instruction hierarchy and incurring minimal safety tax on general capabilities. Unlike blackbox monitoring, self-incrimination performance is consistent across tasks regardless of how suspicious the misbehavior appears externally. The trained behavior persists under adversarial prompt optimization and generalizes to settings where agents pursue misaligned goals themselves rather than being instructed to misbehave. Our results suggest self-incrimination offers a viable path for reducing frontier misalignment risk, one that neither assumes misbehavior can be prevented nor that it can be reliably classified from the outside.
- Abstract(参考訳): 最前線のAIエージェントは、監視から追跡を隠蔽しながら隠れた目標を追求することができる。
アライメントトレーニングは、正しい目標を補強することでそのような行動を防ぐことを目的としているが、アライメントは必ずしも成功せず、望ましくない副作用を引き起こす可能性がある。
そこで我々は,自己犯罪訓練を提案し,その代わりにエージェントが秘密裏に誤動作した場合に,目に見える信号を生成するように訓練する。
我々はGPT-4.1およびGemini-2.0エージェントを訓練し、着床時にReport_scheming()ツールを呼び出し、アウト・オブ・ディストリビューション環境で検出されていない害を引き起こす能力を測定する。
自己差別は、未検出の攻撃率を著しく低下させ、一致した能力モニターとアライメントベースラインを上回り、命令階層を保持し、一般的な能力に対して最小限の安全税を課す。
ブラックボックスの監視とは異なり、不審な行動が外部にどのように現れるかに関わらず、自己差別性能はタスク間で一貫している。
訓練された行動は、敵の迅速な最適化の下で継続し、エージェントが誤った行動を指示されるのではなく、誤った目標を追求する設定に一般化する。
以上の結果から, 自己犯罪はフロンティアの悪質化リスクを軽減し, 不正行為を防ぎ, かつ, 外部から確実に分類できることを示唆した。
関連論文リスト
- When Actions Go Off-Task: Detecting and Correcting Misaligned Actions in Computer-Use Agents [50.5814495434565]
この研究は、コンピュータ利用エージェント(CUA)における不整合検出を定義し、研究する最初の試みである。
実世界のCUAデプロイメントにおける3つの一般的なカテゴリを特定し、人間の注釈付きアクションレベルのアライメントラベルを用いたリアルな軌跡のベンチマークであるMisActBenchを構築した。
本稿では,実行前に不整合を検知し,構造化されたフィードバックによって繰り返し修正する,実用的で普遍的なガードレールであるDeActionを提案する。
論文 参考訳(メタデータ) (2026-02-09T18:41:15Z) - When Benign Inputs Lead to Severe Harms: Eliciting Unsafe Unintended Behaviors of Computer-Use Agents [90.05202259420138]
意図しないコンピュータ利用エージェントは、良質な入力コンテキストの下でも期待された結果から逸脱することができる。
意図しないCUA行動に対する最初の概念的および方法論的枠組みを紹介する。
本稿では,CUA実行フィードバックを用いた命令を反復的に摂動するエージェントフレームワークであるAutoElicitを提案する。
論文 参考訳(メタデータ) (2026-02-09T03:20:11Z) - Co-Evolving Agents: Learning from Failures as Hard Negatives [38.61683607205988]
近年の研究では、自己改善剤を自力で生成し、精製し、自身の軌道で再訓練する研究が進められている。
本稿では、目標エージェントが補助故障エージェントと共同で改善する共進化型エージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-27T09:30:33Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - Stress Testing Deliberative Alignment for Anti-Scheming Training [39.16405205129775]
高い能力を持つAIシステムは、私たちが"スケジュール"と呼ぶ、ミスマッチした目標を秘密裏に追求できる
スキーマの測定と緩和には、MLで一般的に使用される方法とは異なる戦略が必要である。
ルールを秘密裏に破ったり、テストで意図的に過小評価したりするなど、幅広いカテゴリの"カバレッジアクション"を、スケジューリングのプロキシとして使用しています。
論文 参考訳(メタデータ) (2025-09-19T02:49:56Z) - AgentMisalignment: Measuring the Propensity for Misaligned Behaviour in LLM-Based Agents [0.0]
大規模言語モデル (LLM) エージェントはより広く普及し、関連するミスアライメントリスクが増加する。
本研究では,モデルが追求する内部目標と,デプロイ者の意図する目標との相反として,不整合にアプローチする。
現実的なシナリオにおいて,LLMエージェントの適合性を評価するためのベンチマークスイートであるtextscAgentMisalignmentを導入する。
論文 参考訳(メタデータ) (2025-06-04T14:46:47Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Adversarial Inception Backdoor Attacks against Reinforcement Learning [16.350898218047405]
最近の研究は、訓練時間、バックドア中毒に対するDeep Reinforcement Learning (DRL)アルゴリズムの脆弱性を実証している。
本稿では,厳格な報酬制約の下で,DRLに対する新たなバックドア攻撃法を提案する。
論文 参考訳(メタデータ) (2024-10-17T19:50:28Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。