論文の概要: How does information access affect LLM monitors' ability to detect sabotage?
- arxiv url: http://arxiv.org/abs/2601.21112v1
- Date: Wed, 28 Jan 2026 23:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.473441
- Title: How does information access affect LLM monitors' ability to detect sabotage?
- Title(参考訳): 情報アクセスはLCMモニタのサボタージュ検出能力にどのような影響を及ぼすか?
- Authors: Rauno Arike, Raja Mehta Moreno, Rohan Subramani, Shubhorup Biswas, Francis Rhys Ward,
- Abstract要約: 情報アクセスがLCMモニタの性能に与える影響について検討する。
現代のシステムでは、情報が少ないと性能が良くなることがよく示される。
監視されていることを知らないエージェントが、より簡単に捕まえられることがわかりました。
- 参考スコア(独自算出の注目度): 5.941142438950269
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier language model agents can exhibit misaligned behaviors, including deception, exploiting reward hacks, and pursuing hidden objectives. To control potentially misaligned agents, we can use LLMs themselves to monitor for misbehavior. In this paper, we study how information access affects LLM monitor performance. While one might expect that monitors perform better when they have access to more of the monitored agents' reasoning and actions, we find that contemporary systems often perform better with less information, a phenomenon we call the less-is-more effect for automated oversight. We demonstrate this phenomenon, and analyze the conditions under which it occurs, in three evaluation environments where agents must conduct sabotage while evading monitors. Motivated by the less-is-more effect, we introduce extract-and-evaluate (EaE) monitoring--a new hierarchical approach where one monitor isolates relevant excerpts from the monitored agent's trajectory and a separate monitor scores them. In BigCodeBench-Sabotage with GPT-4.1-mini as the monitor model, EaE improves sabotage detection rates by 16.8 percentage points over the next-best monitor without increasing the false positive rate. In other settings, EaE either outperforms or is competitive with baselines. In addition, we find that agents unaware of being monitored can be caught much more easily and that monitors scoring longer reasoning traces gain more from information filtering. Lastly, we conduct a cost-performance analysis and find that Gemini and Claude models with monitoring techniques that involve information filtering occupy much of the Pareto frontier.
- Abstract(参考訳): 最前線の言語モデルエージェントは、詐欺、報酬のハックの活用、隠された目的の追跡など、不一致の行動を示すことができる。
潜在的に不整合性のあるエージェントを制御するには、LSM自身で誤った行動を監視することができる。
本稿では,情報アクセスがLCMモニタの性能に与える影響について検討する。
監視対象のエージェントの推論や行動にもっとアクセスできれば、モニターはより良いパフォーマンスを期待できるかもしれませんが、現代のシステムでは情報が少ないことがよくあります。
我々は,この現象を実演し,モニタを回避しながらサボタージュを行わなければならない3つの評価環境において,その状況を分析した。
より少ない効果を動機として抽出・評価(EaE)モニタリングを導入し,モニタリング対象エージェントの軌跡から関連する抽出物を分離し,別のモニタで評価する階層的手法を提案する。
モニターモデルとしてGPT-4.1-miniのBigCodeBench-Sabotageでは、EaEは偽陽性率を増加させることなく、次のベストモニターでサボタージュ検出率を16.8ポイント改善する。
他の設定では、EaEはパフォーマンスを上回るか、ベースラインと競合する。
さらに,監視対象に気付いていないエージェントをより簡単に捕えることができ,より長い理由付けトレースを計測するモニタが情報フィルタリングによってより多く得られることが判明した。
最後に、コストパフォーマンスの分析を行い、情報フィルタリングを含むモニタリング技術を備えたGeminiとClaudeがパレートフロンティアの大部分を占めることを確かめる。
関連論文リスト
- Monitoring Monitorability [7.993120960324396]
本稿では,3つの評価アーチタイプ(介入,プロセス,結果整合性)と新しい監視可能性指標を提案する。
我々は、様々なフロンティアモデルの監視可能性を比較し、ほとんどのモデルが公平だが、完全には監視できないことを発見した。
モデルにフォローアップ質問をし、フォローアップCoTをモニターに付与することで、監視性を向上させることができることを示す。
論文 参考訳(メタデータ) (2025-12-20T10:46:04Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - Towards mitigating information leakage when evaluating safety monitors [0.11069528768209996]
本稿では,実際のモデル動作を検出する能力の観点から,モニタの性能を評価するためのフレームワークを提案する。
本報告では,本モニタの評価方法として, コンテントろ過, スコアろ過, 微調整モデル生物の蒸留促進の3つの方法を提案する。
論文 参考訳(メタデータ) (2025-09-16T19:09:27Z) - Reliable Weak-to-Strong Monitoring of LLM Agents [6.922769543581406]
我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
論文 参考訳(メタデータ) (2025-08-26T22:29:31Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Backdoor Cleaning without External Guidance in MLLM Fine-tuning [76.82121084745785]
Believe Your Eyes (BYE)は、アテンションエントロピーパターンを自己教師信号として活用して、バックドアサンプルを特定してフィルタリングするデータフィルタリングフレームワークである。
クリーンタスクのパフォーマンスを維持しながら、ほぼゼロの攻撃成功率を達成する。
論文 参考訳(メタデータ) (2025-05-22T17:11:58Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。