論文の概要: Training Deliberative Monitors for Black-Box Scheming Detection
- arxiv url: http://arxiv.org/abs/2605.29601v1
- Date: Thu, 28 May 2026 08:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.078082
- Title: Training Deliberative Monitors for Black-Box Scheming Detection
- Title(参考訳): ブラックボックス・スケジューリング検出のためのリフレクティブ・モニターの訓練
- Authors: Aditya Sinha, Akshat Naik, Victor Gillioz, Simon Storf, Kilian Merkelbach, Rich Barton-Cooper, Axel Højmark, Marius Hobbhahn,
- Abstract要約: アクションオンリーの熟考モニターは、監視対象のエージェントの推論やモデル内部にアクセスすることなく、エージェントの軌道からのスケジュールを検出するように訓練されている。
本手法は,フロンティア教師から構造的有理性を引き出すために,スケジューリング仕様を用いる。
提案手法をQwen3.5-27Bに適用すると,低コストフロンティアモデルよりも高い性能が得られることを示す。
- 参考スコア(独自算出の注目度): 3.441374221174101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As autonomous agents become more capable of performing real-world tasks, distinguishing scheming behavior from benign task pursuit may become a central AI control problem. Existing monitors often rely on chain-of-thought access or internal activations, or use prompted frontier models, all of which can be unavailable, unreliable or expensive in deployment. In this work, we study action-only deliberative monitors: smaller open-weight models trained to detect scheming and sabotage from agentic trajectories without accessing the monitored agent's reasoning or model internals. Our method, inspired by deliberative alignment, uses a scheming specification to elicit structured rationales from a frontier teacher, filters them with a separate judge, and distills the highest-quality rationales into open-weight monitors with supervised fine-tuning and reinforcement learning. We train on five datasets, and evaluate across six out-of-distribution agentic misalignment benchmarks. We show that applying our method to Qwen3.5-27B yields higher performance than all low-cost frontier models as prompted monitors (Gemini 3.1 Flash-Lite, GPT-5.4 Nano, and Claude Haiku 4.5) and than Gemini 2.5 Pro, while also achieving lower marginal inference cost (token-metered USD per 1,000 evaluations). Stronger prompted frontier monitors (Gemini 3.1 Pro, GPT-5.4, Claude Sonnet 4.6, and Claude Opus 4.6) achieve higher performance but at roughly $16$--$34\times$ higher marginal inference cost. Several of our trained monitors are positioned on the empirical cost--performance Pareto frontier among the monitors we evaluate, providing practical low-cost, low-FPR alternatives to prompted frontier models.
- Abstract(参考訳): 自律エージェントが現実世界のタスクを実行する能力が向上するにつれて、良心的なタスク追跡とスケジュール的な振る舞いを区別することが、AIコントロールの中心的な問題になる可能性がある。
既存のモニターはチェーン・オブ・フォア・アクセスや内部のアクティベーションに依存したり、フロンティアモデルを使用したりすることがよくある。
本研究では、エージェントの推論やモデル内部にアクセスすることなく、エージェントの軌道からスケジュールや妨害を検出するために訓練された小さなオープンウェイトモデルについて検討する。
提案手法は,フロンティア教師から構造的有理を抽出し,別個の判断器でフィルタし,高品質な有理を教師付き微調整・強化学習によりオープンウェイトモニタに蒸留する。
5つのデータセットをトレーニングし、6つのアウト・オブ・ディストリビューションエージェントのミスアライメントベンチマークを評価します。
提案手法をQwen3.5-27Bに適用すると,ジェニーニ3.1 Flash-Lite, GPT-5.4 Nano, Claude Haiku 4.5) やGemini 2.5 Pro よりも高い性能が得られるとともに,より低い限界推定コスト(1000評価当たりのUSD)を達成できることを示す。
より強められたフロンティアモニター(Gemini 3.1 Pro, GPT-5.4, Claude Sonnet 4.6, Claude Opus 4.6)は、パフォーマンスが向上するが、約16$--$34\times$ higher marginal inference cost.
関連論文リスト
- $D^2$-Monitor: Dynamic Safety Monitoring for Diffusion LLMs via Hesitation-Aware Routing [63.49501120848927]
大規模言語モデル(D-LLM)の安全性監視はほとんど未検討である。
D-LLMの2レベル安全モニタであるD2$-Monitorを提案する。
D2$-Monitorは、常にオンのモニターとして軽量プローブを採用して、ヒューズレーションを共同で見積もり、ベース分類を実行する。
論文 参考訳(メタデータ) (2026-05-25T14:22:21Z) - Training on Documents About Monitoring Leads to CoT Obfuscation [4.971619873738039]
CoT(Chain-of- Thought)モニタリングは、モデル動作を検知する最も有望なツールの1つである。
本研究では,モニタ対応モデルが検出を回避できるかどうかを考察する。
論文 参考訳(メタデータ) (2026-05-14T17:59:01Z) - CoT-Guard: Small Models for Strong Monitoring [13.584850312226918]
推論モデルのチェーンオブ思考(CoT)をモニタリングすることは、コード生成タスクにおける隠蔽行動(隠蔽目的)を検出するための有望なアプローチである。
大きなモデル(GPT-5、Gemini-3-Flash)は効果的なCoTモニタとして機能するが、長い推論トレースと高いAPIコストのためにデプロイに費用がかかる。
本研究では、教師付き微調整(SFT)と強化学習(RL)を組み合わせた後学習パイプラインを提案し、SFTはドメイン内タスクのギャップを狭める。
論文 参考訳(メタデータ) (2026-05-12T20:49:30Z) - MonitoringBench: Semi-Automated Red-Teaming for Agent Monitoring [0.0]
我々は、監視エージェントに対するより困難な攻撃を露呈する、レッドチーム方式を導入する。
その結果、フロンティアモニターは不審な動作を検出することが多いが、説得のために倒れたり、不審な点を適切に校正できないことが判明した。
MonitoringBenchは、監視機能と障害モードを評価するための2,644のアタックトラジェクトリのベンチマークである。
論文 参考訳(メタデータ) (2026-05-10T18:04:31Z) - ExecTune: Effective Steering of Black-Box LLMs with Guide Models [81.45879384560016]
我々は、ガイドモデルがブラックボックスコアモデルによって実行される構造化戦略を生成する、ガイドコアポリシー(GCoP)と呼ばれるシステムのクラスについて研究する。
我々はGCoPを費用対効果目標として定式化し、エンドツーエンドのパフォーマンスは平均実行可能性によって管理されていることを示す。
教師が指導する受入サンプリング,教師による微調整,構造対応強化学習を組み合わせた,原則的学習レシピであるExecTuneを提案する。
論文 参考訳(メタデータ) (2026-04-09T23:27:46Z) - DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents [0.0]
3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
論文 参考訳(メタデータ) (2026-03-14T06:45:43Z) - How does information access affect LLM monitors' ability to detect sabotage? [5.941142438950269]
情報アクセスがLCMモニタの性能に与える影響について検討する。
現代のシステムでは、情報が少ないと性能が良くなることがよく示される。
監視されていることを知らないエージェントが、より簡単に捕まえられることがわかりました。
論文 参考訳(メタデータ) (2026-01-28T23:01:31Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - GUI-Shepherd: Reliable Process Reward and Verification for Long-Sequence GUI Tasks [75.50160982584943]
本稿では,エージェントを誘導するプロセス・リワード・モデルを提案する。
Gui-Shepherdは52ドル(約5,800円)のインタラクションからなるさまざまな大規模データセットでトレーニングされている。
GUIエージェントにおけるプロセス管理の体系的な研究を最初に行った。
論文 参考訳(メタデータ) (2025-09-28T08:35:16Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。