論文の概要: Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention
- arxiv url: http://arxiv.org/abs/2602.03338v1
- Date: Tue, 03 Feb 2026 10:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.381199
- Title: Accurate Failure Prediction in Agents Does Not Imply Effective Failure Prevention
- Title(参考訳): エージェントの正確な故障予測は効果的な故障防止を示唆しない
- Authors: Rakshith Vasudev, Melisa Russak, Dan Bikel, Waseem Alshikh,
- Abstract要約: LLM批判モデルによる積極的な介入は、しばしば信頼性を向上させると仮定されるが、展開時の影響はよく理解されていない。
高いオフライン精度 (AUROC 0.94) を持つバイナリLLM批判者は, にもかかわらず, 高い性能劣化を引き起こす可能性がある。
我々は、50のタスクからなる小さなパイロットを用いて、完全な配備を必要とせず、介入が助けになるか、害を与えるかを見積もる事前デプロイテストを提案する。
- 参考スコア(独自算出の注目度): 2.0838114053126366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Proactive interventions by LLM critic models are often assumed to improve reliability, yet their effects at deployment time are poorly understood. We show that a binary LLM critic with strong offline accuracy (AUROC 0.94) can nevertheless cause severe performance degradation, inducing a 26 percentage point (pp) collapse on one model while affecting another by near zero pp. This variability demonstrates that LLM critic accuracy alone is insufficient to determine whether intervention is safe. We identify a disruption-recovery tradeoff: interventions may recover failing trajectories but also disrupt trajectories that would have succeeded. Based on this insight, we propose a pre-deployment test that uses a small pilot of 50 tasks to estimate whether intervention is likely to help or harm, without requiring full deployment. Across benchmarks, the test correctly anticipates outcomes: intervention degrades performance on high-success tasks (0 to -26 pp), while yielding a modest improvement on the high-failure ALFWorld benchmark (+2.8 pp, p=0.014). The primary value of our framework is therefore identifying when not to intervene, preventing severe regressions before deployment.
- Abstract(参考訳): LLM批判モデルによる積極的な介入は、しばしば信頼性を向上させると仮定されるが、展開時の影響はよく理解されていない。
強いオフライン精度 (AUROC 0.94) を持つ2進LLM評論家は、一方のモデルに26ポイント (pp) の崩壊を誘発し、他方のモデルにほぼ0ppで影響を及ぼす。
この可変性は、LCM批判の精度だけで介入が安全かどうかを判断するには不十分であることを示す。
介入は、失敗した軌道を回復するだけでなく、成功した軌道を妨害する可能性がある。
この知見に基づき、本研究では、50のタスクからなる小さなパイロットを用いて、完全な配備を必要とせず、介入が役立つかどうかを見積もる事前デプロイテストを提案する。
介入は、高い精度のタスク(0から-26pp)のパフォーマンスを低下させ、高障害のALFWorldベンチマーク(+2.8pp, p=0.014)を緩やかに改善する。
したがって、フレームワークの主な価値は、いつ介入しないかを特定し、デプロイ前に深刻な回帰を防ぐことです。
関連論文リスト
- Trajectory Guard -- A Lightweight, Sequence-Aware Model for Real-Time Anomaly Detection in Agentic AI [0.0]
トラジェクトリガードはシームズ・リカレント・オートエンコーダであり、コントラスト学習によるタスク・トラジェクトリアライメントと、再構成によるシーケンシャル・アライメントを共同で学習するハイブリッド・ロス機能を備えている。
32ミリ秒のレイテンシで、当社のアプローチは LLM Judge のベースラインよりも17-27倍高速で動作し、実運用環境におけるリアルタイムの安全性検証を可能にします。
論文 参考訳(メタデータ) (2026-01-02T00:27:11Z) - Mitigating LLM Hallucination via Behaviorally Calibrated Reinforcement Learning [32.32593439144886]
振舞い校正された強化学習により、小さなモデルは不確実な定量化においてフロンティアモデルを超えることができる。
当社のモデルでは,GPT-5の0.207を超える精度向上率(0.806)を挑戦的なドメイン内評価において達成している。
論文 参考訳(メタデータ) (2025-12-22T22:51:48Z) - Uncertainty-Driven Reliability: Selective Prediction and Trustworthy Deployment in Modern Machine Learning [1.2183405753834562]
この論文は、不確実性推定が機械学習(ML)システムの安全性と信頼性を高める方法について考察する。
まず、モデルのトレーニング軌道は、アーキテクチャの変更や損失を伴わずに活用できるような、豊富な不確実性信号を含むことを示す。
本稿では,タスク間で動作し,深層アンサンブルのコストを回避し,最先端の選択的予測性能を実現する軽量なポストホック禁忌手法を提案する。
論文 参考訳(メタデータ) (2025-08-11T02:33:53Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。