論文の概要: Don't Start What You Can't Finish: A Counterfactual Audit of Support-State Triage in LLM Agents
- arxiv url: http://arxiv.org/abs/2604.16752v1
- Date: Fri, 17 Apr 2026 23:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.811565
- Title: Don't Start What You Can't Finish: A Counterfactual Audit of Support-State Triage in LLM Agents
- Title(参考訳): LLMエージェントにおけるサポート状態トリアージの非現実的な監査
- Authors: Eren Unlu,
- Abstract要約: 本稿では, 4つのサポート状態にまたがって, 最小限のデファクト編集が同じベース要求を反転させる, 一致した診断フレームワークであるSupport-State Triage Audit(SSTA-32)を紹介する。
我々は,Dual-Persona Auto-Auditing (DPAA) を用いた4つの条件下でのフロンティアモデルの評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current agent evaluations largely reward execution on fully specified tasks, while recent work studies clarification [11, 22, 2], capability awareness [9, 1], abstention [8, 14], and search termination [20, 5] mostly in isolation. This leaves open whether agents can diagnose why a task is blocked before acting. We introduce the Support-State Triage Audit (SSTA-32), a matched-item diagnostic framework in which minimal counterfactual edits flip the same base request across four support states: Complete (ANSWER), Clarifiable (CLARIFY), Support-Blocked (REQUEST SUPPORT), and Unsupported-Now (ABSTAIN). We evaluate a frontier model under four prompting conditions - Direct, Action-Only, Confidence-Only, and a typed Preflight Support Check (PSC) - using Dual-Persona Auto-Auditing (DPAA) with deterministic heuristic scoring. Default execution overcommits heavily on non-complete tasks (41.7% overcommitment rate). Scalar confidence mapping avoids overcommitment but collapses the three-way deferral space (58.3% typed deferral accuracy). Conversely, both Action-Only and PSC achieve 91.7% typed deferral accuracy by surfacing the categorical ontology in the prompt. Targeted ablations confirm that removing the support-sufficiency dimension selectively degrades REQUEST SUPPORT accuracy, while removing the evidence-sufficiency dimension triggers systematic overcommitment on unsupported items. Because DPAA operates within a single context window, these results represent upper-bound capability estimates; nonetheless, the structural findings indicate that frontier models possess strong latent triage capabilities that require explicit categorical decision paths to activate safely.
- Abstract(参考訳): 現在のエージェント評価は、完全に指定されたタスクに対して、主に報酬を課すが、最近の研究は、明確化[11, 22, 2]、能力意識[9, 1]、棄権[8, 14]、探索終了[20, 5]は、主に孤立している。
このことは、エージェントがなぜタスクが動作する前にブロックされたのかを診断できるかどうかを開放する。
本報告では,完全(ANSWER),明確(CLARIFY),サポートブロック(REQUEST Support),サポートなし(ABSTAIN)という4つのサポート状態にまたがって,最小限の反ファクト編集が同じベース要求を反転させる,整合診断フレームワークであるSupport-State Triage Audit(SSTA-32)を紹介する。
我々はDual-Persona Auto-Auditing (DPAA) を用いて, 直接, 行動オンリー, 信頼オンリー, タイプ付き事前支援チェック (PSC) の4つの条件下でフロンティアモデルを評価する。
デフォルトの実行は非完全タスク(41.7%のオーバーコミット率)に大きく依存する。
スカラーな信頼マッピングは過剰なコミットを避けるが、3方向のdeferral空間(58.3%の型付きdeferralの精度)を崩壊させる。
逆に、Action-OnlyとPSCはどちらも91.7%の型付きdeferralの精度を実現している。
目標アブレーションは, 支持満足度寸法の除去がReQUESTの支持精度を選択的に低下させ, 証拠満足度寸法の除去は, 支持項目に対する体系的な過剰コミットを引き起こすことを確認した。
DPAAは1つのコンテキストウィンドウ内で動作するため、これらの結果は上界能力の推定値を示すが、構造的結果はフロンティアモデルが安全に作動するために明確なカテゴリー決定経路を必要とする強力な潜在三重項を持つことを示している。
関連論文リスト
- Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF) [0.0]
Convergent Agent Framework (CAAF)は、エージェントをオープンループ生成からクローズループフェイルセーフ決定論へ移行する。
すべてのコンポーネントは単一のコモディティモデルを使用しており、完全なオフラインデプロイメントを可能にしている。
論文 参考訳(メタデータ) (2026-04-18T15:15:09Z) - Verify Before You Fix: Agentic Execution Grounding for Trustworthy Cross-Language Code Analysis [0.0]
ソフトウェア脆弱性分析のための言語横断的な脆弱性ライフサイクルフレームワークを構築します。
89.84-92.02%の言語内検出精度,74.43-80.12%のゼロショット言語F1。
これらの結果は,LLM駆動型エージェントAIのための原理的かつ実用的に展開可能なメカニズムであることを示す。
論文 参考訳(メタデータ) (2026-04-12T20:22:23Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes [37.92248202525651]
本稿では,低レベルの物理的実行から高レベルのユーザ意図理解を分離するためのDual-Stage Intent-Aware (DS-IA)フレームワークを提案する。
試験の結果、DS-IAは58.56%(ベースラインを28%以上上回る)のエクサクトマッチ(EM)を達成し、無効命令の拒否率を87.04%に改善した。
論文 参考訳(メタデータ) (2026-03-17T07:38:39Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。