論文の概要: Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
- arxiv url: http://arxiv.org/abs/2503.11926v1
- Date: Fri, 14 Mar 2025 23:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:52.653586
- Title: Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation
- Title(参考訳): 難聴者の推論モデルと難読化促進のリスク
- Authors: Bowen Baker, Joost Huizinga, Leo Gao, Zehao Dou, Melody Y. Guan, Aleksander Madry, Wojciech Zaremba, Jakub Pachocki, David Farhi,
- Abstract要約: エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
- 参考スコア(独自算出の注目度): 56.102976602468615
- License:
- Abstract: Mitigating reward hacking--where AI systems misbehave due to flaws or misspecifications in their learning objectives--remains a key challenge in constructing capable and aligned models. We show that we can monitor a frontier reasoning model, such as OpenAI o3-mini, for reward hacking in agentic coding environments by using another LLM that observes the model's chain-of-thought (CoT) reasoning. CoT monitoring can be far more effective than monitoring agent actions and outputs alone, and we further found that a LLM weaker than o3-mini, namely GPT-4o, can effectively monitor a stronger model. Because CoT monitors can be effective at detecting exploits, it is natural to ask whether those exploits can be suppressed by incorporating a CoT monitor directly into the agent's training objective. While we show that integrating CoT monitors into the reinforcement learning reward can indeed produce more capable and more aligned agents in the low optimization regime, we find that with too much optimization, agents learn obfuscated reward hacking, hiding their intent within the CoT while still exhibiting a significant rate of reward hacking. Because it is difficult to tell when CoTs have become obfuscated, it may be necessary to pay a monitorability tax by not applying strong optimization pressures directly to the chain-of-thought, ensuring that CoTs remain monitorable and useful for detecting misaligned behavior.
- Abstract(参考訳): 報酬のハッキング - 学習目標に欠陥や不特定性があるため、AIシステムが誤る場合 - は、有能で整列したモデルを構築する上で重要な課題である。
我々は,OpenAI o3-miniのようなフロンティア推論モデルを用いて,エージェントプログラミング環境における報酬ハッキングを,モデルのチェーン・オブ・ソート(CoT)推論を観察する別のLLMを用いて監視できることを示す。
CoTモニタリングは, エージェントの動作や出力を単独で監視するよりもはるかに効果的であり, さらに, o3-mini, すなわち GPT-4o よりも弱い LLM が, より強力なモデルを効果的に監視できることが判明した。
CoTモニタは、エクスプロイトを検出するのに効果的であるため、エージェントのトレーニング目標に直接CoTモニタを組み込むことで、これらのエクスプロイトを抑えることができるかどうかを問うことは自然である。
CoTモニタを強化学習報酬に組み込むことは、低最適化体制において、より有能で整合性の高いエージェントを生み出すことができることを示しているが、過度に最適化することで、エージェントは難解な報酬ハッキングを学習し、CoT内の意図を隠蔽しつつ、相当な報酬ハッキング率を示した。
CoTsがいつ難解になったかを知るのは難しいため、CoTsが監視可能であり、不整合性を検出するのに有用であることを保証するために、強い最適化圧力を直接に適用しないことで監視性税を支払う必要があるかもしれない。
関連論文リスト
- MONA: Myopic Optimization with Non-myopic Approval Can Mitigate Multi-step Reward Hacking [17.055020939723676]
本研究では,好ましくないマルチステッププランを学習するエージェントが高い報酬を受けるのを避けるためのトレーニング手法を提案する。
この手法は,近視的最適化と遠視的報酬を組み合わせることで,非近視的評価法 (MONA) を用いた近視的最適化を行う。
論文 参考訳(メタデータ) (2025-01-22T16:53:08Z) - Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage [14.498422613977363]
Co-Supervised Spotlight Shifting Network (CS$3$Net)は、光源のシフトがカモフラージュを公開する方法にインスパイアされた、コンパクトな単一ブランチフレームワークである。
我々のスポットライトシフト戦略は、境界線をハイライトする監督信号を生成することで、マルチブランチ設計を置き換える。
論文 参考訳(メタデータ) (2024-04-13T09:10:33Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Large Language Model-Powered Smart Contract Vulnerability Detection: New
Perspectives [8.524720028421447]
本稿では, GPT-4 のような大規模言語モデル (LLM) を利用する機会, 課題, 潜在的な解決策を体系的に分析する。
高いランダム性でより多くの答えを生成することは、正しい答えを生み出す可能性を大幅に押し上げるが、必然的に偽陽性の数が増加する。
本稿では,GPTLens と呼ばれる,従来の一段階検出を2つの相乗的段階に分割し,生成と識別を行う逆方向のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-02T12:37:23Z) - RelaxLoss: Defending Membership Inference Attacks without Losing Utility [68.48117818874155]
より達成可能な学習目標を持つ緩和された損失に基づく新しい学習フレームワークを提案する。
RelaxLossは、簡単な実装と無視可能なオーバーヘッドのメリットを加えた任意の分類モデルに適用できる。
当社のアプローチはMIAに対するレジリエンスの観点から,常に最先端の防御機構より優れています。
論文 参考訳(メタデータ) (2022-07-12T19:34:47Z) - The Effects of Reward Misspecification: Mapping and Mitigating
Misaligned Models [85.68751244243823]
RLエージェントが不特定報酬関数のギャップを悪用するリワードハッキングは広く観測されているが、体系的にはまだ研究されていない。
本稿では,モデル能力,行動空間分解能,観測空間雑音,訓練時間といったエージェント能力の関数としての報酬ハッキングについて検討する。
エージェントの動作が定性的にシフトする能力閾値は、真の報酬の急激な減少につながる。
論文 参考訳(メタデータ) (2022-01-10T18:58:52Z) - Policy Smoothing for Provably Robust Reinforcement Learning [109.90239627115336]
入力のノルム有界対向摂動に対する強化学習の証明可能な堅牢性について検討する。
我々は、スムーズなポリシーによって得られる全報酬が、入力の摂動のノルムバウンドな逆数の下で一定の閾値以下に収まらないことを保証した証明書を生成する。
論文 参考訳(メタデータ) (2021-06-21T21:42:08Z) - Distributed Reinforcement Learning for Flexible and Efficient UAV Swarm
Control [28.463670610865837]
本稿では,大規模群に拡大する分散強化学習(RL)手法を提案する。
本実験では, 本手法がコミュニケーションチャネル障害に強い効果的な戦略を導出できることを示した。
また,本手法は計算集約的なルックアヘッドに比べて優れた性能を実現することを示す。
論文 参考訳(メタデータ) (2021-03-08T11:06:28Z) - What Makes for Good Views for Contrastive Learning? [90.49736973404046]
我々は、タスク関連情報をそのまま保持しながら、ビュー間の相互情報(MI)を減らすべきであると論じる。
教師なし・半教師なしのフレームワークを考案し、MIの削減をめざして効果的なビューを学習する。
副産物として、ImageNet分類のための教師なし事前学習における最先端の精度を実現する。
論文 参考訳(メタデータ) (2020-05-20T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。