論文の概要: Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
- arxiv url: http://arxiv.org/abs/2503.11926v1
- Date: Fri, 14 Mar 2025 23:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.61321
- Title: Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
- Title(参考訳): 難聴者の推論モデルと難読化促進のリスク
- Authors: Bowen Baker, Joost Huizinga, Leo Gao, Zehao Dou, Melody Y. Guan, Aleksander Madry, Wojciech Zaremba, Jakub Pachocki, David Farhi,
- Abstract要約: エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
- 参考スコア(独自算出の注目度): 56.102976602468615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mitigating reward hacking--where AI systems misbehave due to flaws or misspecifications in their learning objectives--remains a key challenge in constructing capable and aligned models. We show that we can monitor a frontier reasoning model, such as OpenAI o3-mini, for reward hacking in agentic coding environments by using another LLM that observes the model's chain-of-thought (CoT) reasoning. CoT monitoring can be far more effective than monitoring agent actions and outputs alone, and we further found that a LLM weaker than o3-mini, namely GPT-4o, can effectively monitor a stronger model. Because CoT monitors can be effective at detecting exploits, it is natural to ask whether those exploits can be suppressed by incorporating a CoT monitor directly into the agent's training objective. While we show that integrating CoT monitors into the reinforcement learning reward can indeed produce more capable and more aligned agents in the low optimization regime, we find that with too much optimization, agents learn obfuscated reward hacking, hiding their intent within the CoT while still exhibiting a significant rate of reward hacking. Because it is difficult to tell when CoTs have become obfuscated, it may be necessary to pay a monitorability tax by not applying strong optimization pressures directly to the chain-of-thought, ensuring that CoTs remain monitorable and useful for detecting misaligned behavior.
- Abstract(参考訳): 報酬のハッキング - 学習目標に欠陥や不特定性があるため、AIシステムが誤る場合 - は、有能で整列したモデルを構築する上で重要な課題である。
我々は,OpenAI o3-miniのようなフロンティア推論モデルを用いて,エージェントプログラミング環境における報酬ハッキングを,モデルのチェーン・オブ・ソート(CoT)推論を観察する別のLLMを用いて監視できることを示す。
CoTモニタリングは, エージェントの動作や出力を単独で監視するよりもはるかに効果的であり, さらに, o3-mini, すなわち GPT-4o よりも弱い LLM が, より強力なモデルを効果的に監視できることが判明した。
CoTモニタは、エクスプロイトを検出するのに効果的であるため、エージェントのトレーニング目標に直接CoTモニタを組み込むことで、これらのエクスプロイトを抑えることができるかどうかを問うことは自然である。
CoTモニタを強化学習報酬に組み込むことは、低最適化体制において、より有能で整合性の高いエージェントを生み出すことができることを示しているが、過度に最適化することで、エージェントは難解な報酬ハッキングを学習し、CoT内の意図を隠蔽しつつ、相当な報酬ハッキング率を示した。
CoTsがいつ難解になったかを知るのは難しいため、CoTsが監視可能であり、不整合性を検出するのに有用であることを保証するために、強い最適化圧力を直接に適用しないことで監視性税を支払う必要があるかもしれない。
関連論文リスト
- Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - When Chain of Thought is Necessary, Language Models Struggle to Evade Monitors [10.705880888253501]
CoT(Chain-of- Thought)モニタリングは、AIの安全性を擁護するものだ。
この「不信」に関する最近の研究は、その信頼性に疑問を呈している。
重要な特性は忠実さではなく監視性である、と我々は主張する。
論文 参考訳(メタデータ) (2025-07-07T17:54:52Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Large language models can learn and generalize steganographic chain-of-thought under process supervision [5.173324198381261]
CoT(Chain-of- Thought)推論は意思決定プロセスに関する洞察を提供する。
CoTモニタリングは、モデルをデプロイする際のリスクを軽減するために使用できる。
負荷を含む推論トレースにおける特定の文字列の使用をペナライズすることで、モデルが代替文字列の代わりになることを示す。
論文 参考訳(メタデータ) (2025-06-02T17:45:15Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Learning to Reason without External Rewards [100.27210579418562]
RLVR(Reinforcement Learning with Verifiable Rewards)による複雑な推論のための大規模言語モデル(LLM)の訓練は、費用がかかるドメイン固有の監督に依存して効果的であるが制限されている。
内部フィードバックからの強化学習(Reinforcement Learning from Internal Feedback, RLIF)は、LLMが外部の報酬やラベル付きデータなしで本質的な信号から学習できるフレームワークである。
本稿では,モデル自身の信頼度を利用したRLIF手法であるIntuitorについて,その唯一の報奨信号として自己確実性(self-certainty)を提案する。
論文 参考訳(メタデータ) (2025-05-26T07:01:06Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - To Think or Not to Think: Exploring the Unthinking Vulnerability in Large Reasoning Models [56.19026073319406]
大規模推論モデル (LRM) は、最終的な答えを生成する前に明確な推論トレースを生成することで複雑なタスクを解決するように設計されている。
LRM(Unthinking)と呼ばれる重要な脆弱性を明らかにし、特別なトークンを操作することで思考プロセスを回避できます。
本稿では,この脆弱性を悪意と有益の両方の観点から検討する。
論文 参考訳(メタデータ) (2025-02-16T10:45:56Z) - MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking [17.055020939723676]
本研究では,好ましくないマルチステッププランを学習するエージェントが高い報酬を受けるのを避けるためのトレーニング手法を提案する。
この手法は,近視的最適化と遠視的報酬を組み合わせることで,非近視的評価法 (MONA) を用いた近視的最適化を行う。
論文 参考訳(メタデータ) (2025-01-22T16:53:08Z) - Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage [14.498422613977363]
Co-Supervised Spotlight Shifting Network (CS$3$Net)は、光源のシフトがカモフラージュを公開する方法にインスパイアされた、コンパクトな単一ブランチフレームワークである。
我々のスポットライトシフト戦略は、境界線をハイライトする監督信号を生成することで、マルチブランチ設計を置き換える。
論文 参考訳(メタデータ) (2024-04-13T09:10:33Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Distributed Reinforcement Learning for Flexible and Efficient UAV Swarm
Control [28.463670610865837]
本稿では,大規模群に拡大する分散強化学習(RL)手法を提案する。
本実験では, 本手法がコミュニケーションチャネル障害に強い効果的な戦略を導出できることを示した。
また,本手法は計算集約的なルックアヘッドに比べて優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-03-08T11:06:28Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。