論文の概要: Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation
- arxiv url: http://arxiv.org/abs/2603.03116v1
- Date: Tue, 03 Mar 2026 15:47:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.869046
- Title: Beyond Task Completion: Revealing Corrupt Success in LLM Agents through Procedure-Aware Evaluation
- Title(参考訳): タスク完了を超えて:手順意識評価によるLCMエージェントの破局的成功を明らかにする
- Authors: Hongliu Cao, Ilias Driouich, Eoin Thomas,
- Abstract要約: プロシージャ・アウェア・アセスメント(PAE)は、エージェント・プロシージャを構造化された観察として形式化するフレームワークである。
タウベンチにおける言語モデル(LLM)に基づくエージェントの評価を行った。
- 参考スコア(独自算出の注目度): 2.102846336724103
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents are increasingly adopted in high-stakes settings, but current benchmarks evaluate mainly whether a task was completed, not how. We introduce Procedure-Aware Evaluation (PAE), a framework that formalizes agent procedures as structured observations and exposes consistency relationships between what agents observe, communicate, and execute. PAE evaluates agents along complementary axes (Utility, Efficiency, Interaction Quality, Procedural Integrity) and applies multi-dimensional gating that categorically disqualifies corrupt outcomes. Evaluating state-of-the-art LLM agents on tau-bench yields findings at the axis, compliance, and benchmark levels. At the axis level, the dimensions capture non-redundant failure modes: utility masks reliability gaps, speed does not imply precision, and conciseness does not predict intent adherence. At the procedural compliance level, 27-78% of benchmark reported successes are corrupt successes concealing violations across interaction and integrity. Furthermore, gating substantially collapses Pass^4 rate and affects model rankings. The analysis of corrupt success cases reveals distinctive per-model failure signatures: GPT-5 spreads errors across policy, execution, and intent dimensions; Kimi-K2-Thinking concentrates 78% of violations in policy faithfulness and compliance; and Mistral-Large-3 is dominated by faithfulness failures. At the benchmark level, our analysis exposes structural flaws in the benchmark design, including task scope gaps, contradictory reward signals, and simulator artifacts that produce accidental successes.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントは、ハイテイクな設定で採用されることが多いが、現在のベンチマークでは、タスクが完了したかどうかを主に評価している。
本稿では,エージェントの手順を構造化された観察として形式化し,エージェントが観察し,伝達し,実行するものとの一貫性関係を明らかにするフレームワークであるPAEを紹介する。
PAEは、相補的軸(実用性、効率性、相互作用品質、手続き的整合性)に沿ってエージェントを評価し、多次元ゲーティングを適用して、腐敗した結果を分類的に不平等にする。
Tau-bench上での最先端のLDMエージェントの評価は、軸、コンプライアンス、ベンチマークレベルでの結果が得られる。
軸レベルでは、次元は非冗長な障害モードをキャプチャする:ユーティリティマスクは信頼性のギャップを、速度は正確には示さず、簡潔さは意図の付着を予測しない。
手続き的コンプライアンスレベルでは、ベンチマークで報告された成功の27~78%が、インタラクションと整合性の間の違反を隠蔽する失敗の成功である。
さらに、ゲーティングはPass^4レートを著しく崩壊させ、モデルランキングに影響を与える。
GPT-5はポリシー、実行、意図の次元にエラーを分散し、Kim-K2-Thinkingはポリシーの忠実さとコンプライアンスの違反の78%に集中し、Mistral-Large-3は忠実な失敗に支配されている。
ベンチマークレベルでは、タスクスコープギャップ、矛盾する報酬信号、偶発的な成功をもたらすシミュレーターアーティファクトなど、ベンチマーク設計における構造的欠陥を明らかにする。
関連論文リスト
- RFEval: Benchmarking Reasoning Faithfulness under Counterfactual Reasoning Intervention in Large Reasoning Models [5.733004743054914]
大規模な推論モデル(LRM)は、強い性能を示すが、しばしば妥当に聞こえるが、真の決定過程を反映しない合理性を生み出す。
2つのテスト可能な条件で定義された忠実性を推論するための公式な枠組みを導入する。
RFEvalは、7,186インスタンスのベンチマークであり、制御された出力レベルの対実的介入を通じて忠実さを調査する。
論文 参考訳(メタデータ) (2026-02-19T03:49:37Z) - Towards a Science of AI Agent Reliability [9.570634569436535]
AIエージェントは、重要なタスクを実行するためにますますデプロイされる。
標準ベンチマークにおける精度の上昇は急速な進歩を示唆する一方で、多くのエージェントが実際に失敗し続けている。
エージェントの信頼性を4つの重要な次元(一貫性、堅牢性、予測可能性、安全性)に沿って分解する12のメトリクスを提案する。
論文 参考訳(メタデータ) (2026-02-18T18:05:44Z) - FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - AdversaRiskQA: An Adversarial Factuality Benchmark for High-Risk Domains [3.721111684544962]
大型言語モデル(LLM)における幻覚は、誤報の拡散と公衆信頼の低下に寄与する。
本稿では,最初の検証済みで信頼性の高いベンチマークであるAdversaRiskQAを紹介する。
我々は,Qwen,GPT-OSS,GPTファミリーの6つのオープンソースLCMを評価し,誤情報検出率を測定した。
論文 参考訳(メタデータ) (2026-01-21T22:47:59Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - VIRO: Robust and Efficient Neuro-Symbolic Reasoning with Verification for Referring Expression Comprehension [51.76841625486355]
Referring Expression (REC) は、自然言語クエリに対応する画像領域をローカライズすることを目的としている。
最近のニューロシンボリックRECアプローチは、大規模言語モデル(LLM)と視覚言語モデル(VLM)を利用して構成推論を行う。
推論ステップ内に軽量な演算子レベルの検証器を組み込む,ニューロシンボリックなフレームワークであるVIROを紹介する。
論文 参考訳(メタデータ) (2026-01-19T07:21:19Z) - Structured Uncertainty guided Clarification for LLM Agents [126.26213027785813]
LLMエージェントは、ツールコール機能を備えた大きな言語モデルを拡張するが、曖昧なユーザ命令は、しばしば誤った呼び出しやタスクの失敗につながる。
本稿では,ツールコールパラメータに対する構造的不確かさの定式化,完全情報の期待値(EVPI)を目標としたPOMDPのモデル化,冗長性防止のためのアスペクトベースコストモデルを提案する。
我々のSAGE-Agentは、この構造化された不確実性を活用し、より優れた効率を達成するために、曖昧なタスクのカバレッジを7~39%増加させ、明確な質問を1.5~2.7$times$に減らした。
論文 参考訳(メタデータ) (2025-11-11T21:50:44Z) - Making LLMs Reliable When It Matters Most: A Five-Layer Architecture for High-Stakes Decisions [51.56484100374058]
現在の大規模言語モデル(LLM)は、実行前にアウトプットをチェックできるが、不確実な結果を伴う高い戦略決定には信頼性が低い検証可能な領域で優れている。
このギャップは、人間と人工知能(AI)システムの相互認知バイアスによって引き起こされ、そのセクターにおける評価と投資の持続可能性の保証を脅かす。
本報告では、7つのフロンティアグレードLDMと3つの市場向けベンチャーヴィグネットの時間的圧力下での系統的質的評価から生まれた枠組みについて述べる。
論文 参考訳(メタデータ) (2025-11-10T22:24:21Z) - Preemptive Detection and Correction of Misaligned Actions in LLM Agents [58.39520480675366]
InferActは、実行前に不整合アクションを検出する新しいアプローチである。
タイムリーな修正をユーザーに警告し、有害な結果を防ぐ。
InferActは、ミスアライメントされたアクション検出におけるベースラインに対するMarco-F1の最大20%の改善を実現している。
論文 参考訳(メタデータ) (2024-07-16T15:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。