論文の概要: PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors
- arxiv url: http://arxiv.org/abs/2605.06455v1
- Date: Thu, 07 May 2026 15:49:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.95762
- Title: PrefixGuard: From LLM-Agent Traces to Online Failure-Warning Monitors
- Title(参考訳): PrefixGuard: LLM-Agentトレースからオンライン障害監視モニターへ
- Authors: Xinmiao Huang, Jinwei Hu, Rajarshi Roy, Changshun Wu, Yi Dong, Xiaowei Huang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、最終結果チェックが介入するには遅すぎるような、長時間のツール使用タスクを実行する。
PrefixGuardは、オフラインのStepView誘導ステップと監視監視トレーニングを備えたトレース・ツー・モニタフレームワークである。
WebArena, $2$-Bench, SkillsBench, TerminalBench, 最も強力なPrefixGuardモニタは0.900/0.70.533/0.557 AUPRCである。
- 参考スコア(独自算出の注目度): 14.336100401626062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents now execute long, tool-using tasks where final outcome checks can arrive too late for intervention. Online warning requires lightweight prefix monitors over heterogeneous traces, but hand-authored event schemas are brittle and deployment-time LLM judging is costly. We introduce PrefixGuard, a trace-to-monitor framework with an offline StepView induction step followed by supervised monitor training. StepView induces deterministic typed-step adapters from raw trace samples, and the monitor learns an event abstraction and prefix-risk scorer from terminal outcomes. Across WebArena, $τ^2$-Bench, SkillsBench, and TerminalBench, the strongest PrefixGuard monitors reach 0.900/0.710/0.533/0.557 AUPRC. Using the strongest backend within each representation, they improve over raw-text controls by an average of +0.137 AUPRC. LLM judges remain substantially weaker under the same prefix-warning protocol. We also derive an observability ceiling on score-based area under the precision-recall curve (AUPRC) that separates monitor error from failures lacking evidence in the observed prefix. For finite-state audit, post-hoc deterministic finite automaton (DFA) extraction remains compact on WebArena and $τ^2$-Bench (29 and 20 states) but expands to 151 and 187 states on SkillsBench and TerminalBench. Finally, first-alert diagnostics show that strong ranking does not imply deployment utility: WebArena ranks well yet fails to support low-false-alarm alerts, whereas $τ^2$-Bench and TerminalBench retain more actionable early alerts. Together, these results position PrefixGuard as a practical monitor-synthesis recipe with explicit diagnostics for when prefix warnings translate into actionable interventions.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントが、最終結果チェックが手遅れで介入できないような、長時間のツール使用タスクを実行できるようになった。
オンライン警告では、異種トレース上で軽量なプレフィックスモニタを必要とするが、手書きのイベントスキーマは不安定であり、デプロイメント時のLCM判定にはコストがかかる。
PrefixGuardは、オフラインのStepView誘導ステップと監視監視トレーニングを備えたトレース・ツー・モニタフレームワークである。
StepViewは生のトレースサンプルから決定論的型付けステップアダプタを誘導し、モニターは終端結果からイベント抽象化とプレフィックスリスクスコアラを学習する。
Across WebArena, $τ^2$-Bench, SkillsBench, TerminalBench, 最も強力なPrefixGuardモニタは0.900/0.710/0.533/0.557 AUPRCである。
各表現の中で最強のバックエンドを使用することで、生テキストコントロールよりも平均+0.137 AUPRCの改善を実現している。
LLM判事は、同じプレフィックス警告プロトコルの下では、かなり弱いままである。
また,AUPRC (precision-recall curve) によるスコアベース領域の可観測性天井を導出した。
有限状態監査では、ポストホック決定性有限オートマトン(DFA)抽出はWebArenaと$τ^2$-Bench(29州と20州)ではコンパクトだが、SkillsBenchと TerminalBenchでは151州と187州に拡張される。
最後に、ファーストアラート診断は、強力なランキングがデプロイメントユーティリティを示唆しないことを示している: WebArenaは、十分にランク付けされているが、ローファースアラームアラートをサポートしない。
これらの結果とともに、PrefixGuardは、プレフィックス警告が実行可能な介入に変換されたときの明確な診断を伴う、実用的な監視合成レシピとして位置づけられている。
関連論文リスト
- ShieldNet: Network-Level Guardrails against Emerging Supply-Chain Injections in Agentic Systems [56.613157564882925]
悪意のある行動は、一見良心的なツールに埋め込まれ、エージェントの実行を静かにハイジャックしたり、機密データをリークしたり、無許可のアクションをトリガーしたりする。
影響は拡大しているが、このような脅威を評価するための包括的なベンチマークは今のところ存在しない。
実ネットワークの相互作用を観測してサプライチェーン中毒を検出するネットワークレベルのガードレールフレームワークであるShieldNetを提案する。
論文 参考訳(メタデータ) (2026-04-06T05:15:00Z) - DeceptGuard :A Constitutional Oversight Framework For Detecting Deception in LLM Agents [0.0]
3つの監視体制を体系的に比較する統合フレームワークであるDECEPTGUARDを紹介する。
提案するDECEPTSYNTHは,偽陽性および偽陰性なエージェントトラジェクトリを生成する,スケーラブルな合成パイプラインである。
モニタは4,800個の合成軌道に最適化され、DeceptArenaの9,200個のホールドアウトサンプルで評価された。
論文 参考訳(メタデータ) (2026-03-14T06:45:43Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - Adaptive Attacks on Trusted Monitors Subvert AI Control Protocols [80.68060125494645]
プロトコルとモニタモデルを知っている信頼できないモデルによるアダプティブアタックについて検討する。
我々は、攻撃者がモデル出力に公知またはゼロショットプロンプトインジェクションを埋め込む単純な適応攻撃ベクトルをインスタンス化する。
論文 参考訳(メタデータ) (2025-10-10T15:12:44Z) - Beyond Linear Probes: Dynamic Safety Monitoring for Language Models [67.15793594651609]
従来の安全モニタは、クエリ毎に同じ量の計算を必要とする。
動的アクティベーションモニタリングのための線形プローブの自然な拡張であるTrncated Polynomials (TPCs)を紹介する。
我々の重要な洞察は、TPCを段階的に、短期的に訓練し、評価できるということです。
論文 参考訳(メタデータ) (2025-09-30T13:32:59Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - CoT Red-Handed: Stress Testing Chain-of-Thought Monitoring [3.6284577335311563]
CoT(Chain-of-Thought)モニタリングは、アクションのみの監視がサボタージュを確実に識別できないシナリオにおいて、最大27ポイントの検出を改善する。
CoTトレースはまた、モニターを欺く誤解を招く合理化も含み、より明白なサボタージュケースのパフォーマンスを低下させる。
このハイブリッドモニターは、テストされたすべてのモデルとタスクにわたってCoTとアクションオンリーのモニターを一貫して上回り、微妙な詐欺シナリオに対するアクションオンリーのモニタリングよりも4倍高い速度で検出する。
論文 参考訳(メタデータ) (2025-05-29T15:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。