論文の概要: DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents
- arxiv url: http://arxiv.org/abs/2603.13791v1
- Date: Sat, 14 Mar 2026 06:45:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.409633
- Title: DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents
- Title(参考訳): DeceptGuard : LLMエージェントの偽装検出のための構成的監視フレームワーク
- Authors: Snehasis Mukhopadhyay,
- Abstract要約: 3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable detection of deceptive behavior in Large Language Model (LLM) agents is an essential prerequisite for safe deployment in high-stakes agentic contexts. Prior work on scheming detection has focused exclusively on black-box monitors that observe only externally visible tool calls and outputs, discarding potentially rich internal reasoning signals. We introduce DECEPTGUARD, a unified framework that systematically compares three monitoring regimes: black-box monitors (actions and outputs only), CoT-aware monitors (additionally observing the agent's chain-of-thought reasoning trace), and activation-probe monitors (additionally reading hidden-state representations from a frozen open-weights encoder). We introduce DECEPTSYNTH, a scalable synthetic pipeline for generating deception-positive and deception-negative agent trajectories across a novel 12-category taxonomy spanning verbal, behavioral, and structural deception. Our monitors are optimized on 4,800 synthetic trajectories and evaluated on 9,200 held-out samples from DeceptArena, a benchmark of realistic sandboxed agent environments with execution-verified labels. Across all evaluation settings, CoT-aware and activation-probe monitors substantially outperform their black-box counterparts (mean pAUROC improvement of +0.097), with the largest gains on subtle, long-horizon deception that leaves minimal behavioral footprints. We empirically characterize a transparency-detectability trade-off: as agents learn to suppress overt behavioral signals, chain-of-thought becomes the primary detection surface but is itself increasingly unreliable due to post-training faithfulness degradation. We propose HYBRID-CONSTITUTIONAL ensembles as a robust defense-in-depth approach, achieving a pAUROC of 0.934 on the held-out test set, representing a substantial advance over the prior state of the art.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントにおける偽装行動の信頼性の検出は、高取扱いのエージェントコンテキストにおける安全な配置に必須の前提条件である。
スケジューリング検出に関する以前の研究は、外部から見えるツールコールと出力のみを観察し、潜在的にリッチな内部推論信号を捨てるブラックボックスモニタにのみ焦点をあてていた。
ブラックボックスモニタ(アクションとアウトプットのみ)、CoT対応モニター(エージェントのチェーン・オブ・シーリングトレースを付加的に観察する)、アクティベーションプロブモニター(凍結したオープンウェイトエンコーダから隠れ状態表現を付加的に読み取る)の3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介した。
DeCEPTSYNTHは, 言語, 行動, 構造にまたがる新しい12カテゴリーの分類体系において, 偽陽性, 偽陰性なエージェント軌道を生成するスケーラブルな合成パイプラインである。
我々のモニターは4,800の合成軌道に最適化され、実環境のサンドボックス化されたエージェント環境のベンチマークであるDeceptArenaの9,200のホールトアウトサンプルで評価された。
すべての評価設定において、CoT対応とアクティベーションプローブモニターはブラックボックスのモニター(pAUROCが+0.097に改善した)を大幅に上回っている。
エージェントが過度な行動信号の抑制を学ぶと、チェーン・オブ・シントが一次検出面となるが、訓練後の忠実度低下により信頼性が低下する。
本研究では,HyBRID-CONSTITUTIONAL アンサンブルを,ホールドアウトテストセットで0.934のpAUROCを達成し,従来の最先端技術よりも大幅に進歩したことを示す。
関連論文リスト
- Constitutional Black-Box Monitoring for Scheming in LLM Agents [1.4619913143519836]
我々は言語モデルを用いて不審な行為に対するエージェントの行動を調べる。
本研究では,外部観測可能な入力と出力のみを用いて,スケジューリングを検出する構成的ブラックボックスモニタについて検討する。
我々の設定では、より広範な最適化の結果と一致する単純なプロンプトスイープによって、パフォーマンスが急速に飽和していることが分かりました。
論文 参考訳(メタデータ) (2026-02-28T22:31:32Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Cross-modal Proxy Evolving for OOD Detection with Vision-Language Models [59.242742594156546]
CoEvoは、テキストプロキシとビジュアルプロキシの両方を双方向でサンプル条件で適応するテストタイムフレームワークである。
CoEvoは最先端のパフォーマンスを実現し、AUROCを1.33%改善し、ImageNet-1KではFPR95を45.98%削減した。
論文 参考訳(メタデータ) (2026-01-13T12:08:26Z) - Towards mitigating information leakage when evaluating safety monitors [0.11069528768209996]
本稿では,実際のモデル動作を検出する能力の観点から,モニタの性能を評価するためのフレームワークを提案する。
本報告では,本モニタの評価方法として, コンテントろ過, スコアろ過, 微調整モデル生物の蒸留促進の3つの方法を提案する。
論文 参考訳(メタデータ) (2025-09-16T19:09:27Z) - Reliable Weak-to-Strong Monitoring of LLM Agents [6.922769543581406]
我々は,自律エージェントの隠蔽行動を検出するためのテスト監視システムを強調した。
我々は、様々なレベルのエージェントを組み込んだ監視レッドチーム(MRT)ワークフローを開発し、状況認識を監視する。
さらなる研究を促進するために、コード、データ、ログをリリースしています。
論文 参考訳(メタデータ) (2025-08-26T22:29:31Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Monitoring Reasoning Models for Misbehavior and the Risks of Promoting Obfuscation [56.102976602468615]
エージェントコーディング環境における報酬ハッキングのために,OpenAI o3-miniのようなフロンティア推論モデルを監視することができることを示す。
最適化が多すぎると、エージェントは難解な報酬のハッキングを学び、その意図を思考の連鎖の中に隠してしまう。
論文 参考訳(メタデータ) (2025-03-14T23:50:34Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。