論文の概要: When Evidence is Sparse: Weakly Supervised Early Failure Alerting in Dialogs and LLM-Agent Trajectories
- arxiv url: http://arxiv.org/abs/2606.05414v1
- Date: Wed, 03 Jun 2026 20:28:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.391105
- Title: When Evidence is Sparse: Weakly Supervised Early Failure Alerting in Dialogs and LLM-Agent Trajectories
- Title(参考訳): 曖昧な証拠:ダイアログとLDM-Agent軌道における弱い監視された早期故障
- Authors: Avinash Baidya, Xinran Liang, Ruocheng Guo, Xiang Gao, Kamalika Das,
- Abstract要約: 早期の障害警告では、ダイアログやエージェントのトラジェクトリがまだ展開されている間に、フェールするかどうかを判断する必要がある。
一般的には、トラジェクトリレベルの成功/失敗ラベルとしてのみ、監視が利用可能であるのに対して、アラートは部分的なインタラクションから引き上げなければならないため、これは難しい。
本稿では、このスパースエビデンス構造から学習し、その結果のリスク推定を制御可能な早期警報に利用する2段階のアプローチを提案する。
- 参考スコア(独自算出の注目度): 20.332123003765837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early failure alerting requires deciding, while a dialog or agent trajectory is still unfolding, whether to flag it as likely to fail. This is challenging because supervision is typically available only as a trajectory-level success/failure label while alerts must be raised from partial interactions. Prior early-classification methods often bridge this gap by assigning the terminal label to every prefix, treating every turn as failure evidence. We hypothesize that this prefix-label assumption is poorly matched to multi-turn language interactions, where evidence of eventual failure is sparse and often delayed. In this paper, we introduce a two-stage approach that learns from this sparse evidence structure and uses the resulting risk estimates for controllable early alerting. Specifically, our attention-based failure predictor learns sparse turn-level failure evidence from trajectory labels and uses it to estimate failure risk from partial histories. We then pair this predictor with $α$-STOP, a single preference-conditioned stopping policy that selects an accuracy-earliness operating point at inference time rather than training a separate trigger for each preference. Across five benchmarks spanning customer support, task-oriented dialog, persuasion, tool use, and planning, we first show that high-relevance failure evidence occupies only 4.7-11.3% of turns and first appears after 59.0-83.6\% of trajectories on average. We further show that the attention-based predictor improves Pareto-frontier quality (hypervolume) by 1-10\% over naive prefix supervision, and that the full system improves frontier quality by 3-42\% over state-of-the-art trigger policies while reducing training cost per operating point by 1-3 orders of magnitude.
- Abstract(参考訳): 早期の障害警告では、ダイアログやエージェントのトラジェクトリがまだ展開されている間に、フェールするかどうかを判断する必要がある。
一般的には、トラジェクトリレベルの成功/失敗ラベルとしてのみ、監視が利用可能であるのに対して、アラートは部分的なインタラクションから引き上げなければならないため、これは難しい。
初期の分類法では、終端ラベルをすべてのプレフィックスに割り当て、全てのターンを失敗の証拠として扱うことで、このギャップを埋めることが多い。
このプレフィックス-ラベルの仮定は多ターン言語間相互作用とはあまり一致せず、最終的な失敗の証拠は希少であり、しばしば遅れる、という仮説を立てる。
本稿では、このスパースエビデンス構造から学習し、その結果のリスク推定を制御可能な早期警報に利用する2段階アプローチを提案する。
具体的には、注意に基づく障害予測器は、軌跡ラベルから粗末なターンレベルの障害証拠を学習し、部分的履歴から障害リスクを推定する。
次に、この予測器と$α$-STOPという1つの優先条件付き停止ポリシーを組み合わせ、それぞれに個別のトリガをトレーニングするのではなく、推論時間で精度の高い動作点を選択する。
顧客サポート、タスク指向のダイアログ、説得、ツールの使用、計画にまたがる5つのベンチマークで、まず、高関連障害の証拠が4.7-11.3%のターンしか占めておらず、平均で59.0-83.6%のトラジェクトリの後に最初に現れる。
さらに、注意に基づく予測器は、素早いプレフィックス監督よりもパレトフロンティア品質(ハイパーボリューム)を1~10倍改善し、フルシステムは最先端のトリガポリシーよりも3~42倍改善し、運用点当たりのトレーニングコストを1~3桁削減することを示した。
関連論文リスト
- The Saturation Trap and the Subjectivity of Intervention Timing: Why Affect-Based Triggers and LLM Judges Fail to Time Interventions on Autonomous Agents [0.0]
インターベンションタイミングは信頼性の低い構造であり、シングルアノテータF1を不適切な最適化ターゲットとする。
我々の貢献は、人間のレータ間の信頼性、4つの検出器アーキテクチャ、モデルのLEM-judgeスイープ、再現された飽和効果にまたがるこの問題を、共同でマッピングすることである。
論文 参考訳(メタデータ) (2026-06-02T23:54:27Z) - ExComm: Exploration-Stage Communication for Error-Resilient Agentic Test-Time Scaling [57.42714978834704]
ExCommは、探索段階のエージェントテストタイムスケーリングのための通信プロトコルである。
ExCommは、強いテスト時間スケーリングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-21T07:38:44Z) - Can LLM Agents Respond to Disasters? Benchmarking Heterogeneous Geospatial Reasoning in Emergency Operations [55.251494694783894]
災害対応エージェントベンチマーク(DORA)は、エンド・ツー・エンドの災害対応のための最初のエージェントベンチマークである。
タスクは、災害認識、空間関係分析、救助・避難計画、時間的進化推論、マルチモーダルレポート合成という、災害対応パイプラインをカバーする5つの次元にまたがる。
DORAは、運用上の信頼性の高い災害対応エージェントのための厳格なテストベッドを確立する。
論文 参考訳(メタデータ) (2026-05-12T06:57:41Z) - AgentForesight: Online Auditing for Early Failure Prediction in Multi-Agent Systems [30.172832661173928]
LLMベースのマルチエージェントシステムは、長距離タスクにますますデプロイされている。
単一の決定的なエラーは、しばしば下流のエージェントやカスケードによって軌道レベルの障害として受け入れられる。
我々は,この問題をオンライン監査として再編成するフレームワークであるAgentForesightを紹介した。
論文 参考訳(メタデータ) (2026-05-09T05:55:19Z) - Affordance Agent Harness: Verification-Gated Skill Orchestration [45.231685718099264]
Affordance groundingは、オープンワールドのシーンでエージェントがどこでどのように対話すべきかを特定する必要がある。
本稿では,エビデンスストアとコストコントロールを備えたクローズドループランタイムであるAffordance Agent Harnessを提案する。
論文 参考訳(メタデータ) (2026-05-01T13:45:16Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Building a Foundational Guardrail for General Agentic Systems via Synthetic Data [76.18834864749606]
LLMエージェントは、計画段階で介入するマルチステップタスクを計画できる。
既存のガードレールは主にポスト・エグゼクティブ(英語版)を運用しており、スケーリングが困難であり、計画レベルで制御可能な監督を行う余地がほとんどない。
我々は、良性軌道を合成し、カテゴリーラベル付きリスクを困難に注入し、自動報酬モデルを介して出力をフィルタリングする制御可能なエンジンであるAuraGenを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:32Z) - Lie Detector: Unified Backdoor Detection via Cross-Examination Framework [68.45399098884364]
半正直な設定で一貫したバックドア検出フレームワークを提案する。
本手法は,SoTAベースラインよりも5.4%,1.6%,11.9%の精度で検出性能が向上する。
特に、マルチモーダルな大規模言語モデルにおいて、バックドアを効果的に検出するのは、これが初めてである。
論文 参考訳(メタデータ) (2025-03-21T06:12:06Z) - METANOIA: A Lifelong Intrusion Detection and Investigation System for Mitigating Concept Drift [6.988127333802916]
本稿では,概念漂流による偽陽性を緩和する最初の終生検出システムであるMetanoiaについて述べる。
最先端ベンチマークを用いて,MeTANOIAはウィンドウレベル,グラフレベル,ノードレベルの精度をそれぞれ30%,54%,29%向上することを示した。
論文 参考訳(メタデータ) (2024-12-31T13:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。