論文の概要: TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol
- arxiv url: http://arxiv.org/abs/2604.03968v1
- Date: Sun, 05 Apr 2026 05:05:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.853377
- Title: TraceGuard: Structured Multi-Dimensional Monitoring as a Collusion-Resistant Control Protocol
- Title(参考訳): TraceGuard: 協調型制御プロトコルとしての構造化多次元モニタリング
- Authors: Khanh Linh Nguyen, Hoa Nghiem, Tu Tran,
- Abstract要約: TraceGuardは5次元にわたるエージェントアクションを評価する構造化多次元監視プロトコルである。
オープンソースのControlArenaフレームワーク用の新しいモニタタイプとして実装されている。
- 参考スコア(独自算出の注目度): 1.0195618602298684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI control protocols use monitors to detect attacks by untrusted AI agents, but standard single-score monitors face two limitations: they miss subtle attacks where outputs look clean but reasoning is off, and they collapse to near-zero safety when the monitor is the same model as the agent (collusion). We present TraceGuard, a structured multi-dimensional monitoring protocol that evaluates agent actions across five dimensions -- goal alignment, constraint adherence, reasoning coherence, safety awareness, and action-trace consistency -- scored in parallel by independent LLM calls, augmented by seven heuristic detectors and an LLM-based intent analyzer. We evaluate on BashArena (637 bash tasks, 4 attack categories) within the ControlArena framework. Our results on 519 samples (279 honest, 240 attack) show that: (1) the hybrid approach achieves clear attack-honest separation (attack mean 0.616 vs. honest mean 0.206, Delta=0.410); (2) structured scoring constrains collusion -- the untrusted structured monitor achieves 95% safety vs. 0% for single-score untrusted monitoring; (3) goal alignment and constraint adherence are the most discriminative dimensions; and (4) a separation-of-duties variant splitting dimensions across trusted and untrusted models achieves 100% safety while preventing any single model from seeing the full evaluation. TraceGuard is implemented as a new monitor type for the open-source ControlArena framework.
- Abstract(参考訳): AI制御プロトコルは、信頼できないAIエージェントによる攻撃を検出するためにモニターを使用するが、標準的なシングルスコアモニターは2つの制限に直面している。
目的整合性,制約付着性,推論コヒーレンス,安全意識,行動トレース一貫性の5次元にわたるエージェント動作を評価する構造化多次元監視プロトコルであるTraceGuardを,独立LLMコールによって並列に評価し,7つのヒューリスティック検出器とLLMベースのインテントアナライザで拡張した。
ControlArenaフレームワーク内のBashArena(bashタスク637、攻撃カテゴリ4)を評価した。
519例(正直279例,240例)の結果,(1)ハイブリッドアプローチは明確な攻撃指向性分離(攻撃平均0.616 vs. 正直平均0.206, Delta=0.410),(2)構造化されたスコアリング制約の照合 – 信頼できない監視では95%の安全性対0%,(3)ゴールアライメントと制約順守は最も差別的な次元である,(4)信頼度と信頼度を分けたモデルの分割分割分割は100%の安全性を達成し,一方,信頼度と信頼度の高いモデルでは100%の安全性を達成できる,という結果が得られた。
TraceGuardはオープンソースのControlArenaフレームワークの新しいモニタタイプとして実装されている。
関連論文リスト
- DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents [0.0]
3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
論文 参考訳(メタデータ) (2026-03-14T06:45:43Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - TraceGuard: Process-Guided Firewall against Reasoning Backdoors in Large Language Models [19.148124494194317]
我々は,小規模モデルを堅牢な推論ファイアウォールに変換するプロセス誘導型セキュリティフレームワークであるTraceGuardを提案する。
提案手法は,推理トレースを信頼できないペイロードとして扱い,詳細な防衛戦略を確立する。
グレーボックス設定における適応的敵に対する堅牢性を実証し、TraceGuardを実用的で低レイテンシなセキュリティプリミティブとして確立する。
論文 参考訳(メタデータ) (2026-03-02T22:19:13Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z) - Malicious Agent Detection for Robust Multi-Agent Collaborative Perception [52.261231738242266]
多エージェント協調(MAC)知覚は、単エージェント認識よりも敵攻撃に対して脆弱である。
MAC知覚に特異的な反応防御であるMADE(Malicious Agent Detection)を提案する。
我々は、ベンチマーク3DデータセットV2X-simとリアルタイムデータセットDAIR-V2Xで包括的な評価を行う。
論文 参考訳(メタデータ) (2023-10-18T11:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。