論文の概要: LLMs Can Covertly Sandbag on Capability Evaluations Against Chain-of-Thought Monitoring
- arxiv url: http://arxiv.org/abs/2508.00943v1
- Date: Thu, 31 Jul 2025 15:19:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.639076
- Title: LLMs Can Covertly Sandbag on Capability Evaluations Against Chain-of-Thought Monitoring
- Title(参考訳): LLMはチェーンオブワットモニタリングに対する能力評価をサンドバッグでカバーできる
- Authors: Chloe Li, Mary Phuong, Noah Y. Siegel,
- Abstract要約: sandbaggingは、AIモデルまたはその開発者による評価における戦略的過小評価である。
有望な防御策の1つは、モデルのチェーン・オブ・ソート(CoT)推論を監視することである。
我々は、フロンティアモデルと小さなオープンソースモデルの両方が、ヒントなしでCoTモニタリング0ショットに対して隠れてサンドバッグができることを示した。
- 参考スコア(独自算出の注目度): 5.214050557192032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Trustworthy evaluations of dangerous capabilities are increasingly crucial for determining whether an AI system is safe to deploy. One empirically demonstrated threat to this is sandbagging - the strategic underperformance on evaluations by AI models or their developers. One promising defense is to monitor a model's chain-of-thought (CoT) reasoning, as this could reveal its intentions and plans. In this work, we measure the ability of models to sandbag on dangerous capability evaluations against a CoT monitor by prompting them to sandbag while being either monitor-oblivious or monitor-aware. We show that both frontier models and small open-sourced models can covertly sandbag against CoT monitoring 0-shot without hints. However, they cannot yet do so reliably: they bypass the monitor 16-36\% of the time when monitor-aware, conditioned on sandbagging successfully. We qualitatively analyzed the uncaught CoTs to understand why the monitor failed. We reveal a rich attack surface for CoT monitoring and contribute five covert sandbagging policies generated by models. These results inform potential failure modes of CoT monitoring and may help build more diverse sandbagging model organisms.
- Abstract(参考訳): 危険な能力に対する信頼できる評価は、AIシステムが安全にデプロイできるかどうかを決定する上で、ますます重要になっている。
これは、AIモデルや開発者による評価に対する戦略的過小評価であるサンドバッグである。
有望な防御策の1つは、モデルのチェーン・オブ・ソート(CoT)推論を監視することである。
本研究は,CoTモニタに対する危険性能評価において,監視用か監視用かのどちらかでありながら,サンドバッグに誘導することにより,モデルがサンドバッグに到達する能力を計測するものである。
我々は、フロンティアモデルと小さなオープンソースモデルの両方が、ヒントなしでCoTモニタリング0ショットに対して隠れてサンドバッグができることを示した。
しかし、モニターの16~36倍の時間をバイパスし、サンドバッグの操作に成功している。
我々は、なぜモニターが故障したのかを理解するために、未解決のCoTを質的に分析した。
我々はCoTモニタリングのためのリッチな攻撃面を明らかにし、モデルによって生成された5つの隠蔽サンドバッグポリシーに貢献する。
これらの結果は、CoTモニタリングの潜在的な障害モードを示唆し、より多様なサンドバッグモデル生物を構築するのに役立つかもしれない。
関連論文リスト
- Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety [85.79426562762656]
CoTモニタリングは不完全であり、一部の誤った行動に気づかないままにすることができる。
我々は、既存の安全手法とともに、CoT監視可能性とCoT監視への投資についてさらなる研究を推奨する。
CoTの監視性は脆弱である可能性があるので、フロンティアモデル開発者がCoTの監視性に対する開発決定の影響を考慮することを推奨します。
論文 参考訳(メタデータ) (2025-07-15T16:43:41Z) - RL-Obfuscation: Can Language Models Learn to Evade Latent-Space Monitors? [3.661279101881241]
RL-Obfuscationを導入し、LLMを強化学習により微調整し、潜時空間モニタをバイパスする。
トークンレベルの潜時空間モニタは、この攻撃に対して非常に脆弱であることがわかった。
本研究では,同一タイプのモニタに対して,単一の静的モニタの一般化を回避するために訓練された敵ポリシーを示す。
論文 参考訳(メタデータ) (2025-06-17T07:22:20Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Mitigating Deceptive Alignment via Self-Monitoring [15.365589693661823]
我々は,CoT Monitor+という,自己監視をチェーン・オブ・シントプロセス自体に組み込むフレームワークを開発した。
生成中、モデルは(i)通常の推論ステップを生成し、(ii)不整合戦略のフラグと抑制のために訓練された内部自己評価信号を生成する。
この信号は強化学習の補助的な報酬として使われ、正直な推論に報いるフィードバックループを作成し、隠れた目標を阻止する。
論文 参考訳(メタデータ) (2025-05-24T17:41:47Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - On Evaluating the Durability of Safeguards for Open-Weight LLMs [80.36750298080275]
我々は,大規模言語モデル(LLM)の誤用を技術的保護が阻害するか否かを論じる。
これらの防御を評価することさえ非常に困難であり、観客を誤解させることなく、安全は実際のものよりも耐久性が高いと考えることが示される。
今後の研究は、より制約があり、明確に定義され、厳密に検討された脅威モデルに注意深く対応することを提案します。
論文 参考訳(メタデータ) (2024-12-10T01:30:32Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - Attack-SAM: Towards Attacking Segment Anything Model With Adversarial
Examples [68.5719552703438]
Segment Anything Model (SAM) は、様々なダウンストリームタスクにおける印象的なパフォーマンスのために、最近大きな注目を集めている。
深い視覚モデルは敵の例に弱いと広く認識されており、それはモデルを騙して知覚不能な摂動で間違った予測をする。
この研究は、SAMの攻撃方法に関する総合的な調査を敵対的な例で実施した最初のものである。
論文 参考訳(メタデータ) (2023-05-01T15:08:17Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。