論文の概要: Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment Systems
- arxiv url: http://arxiv.org/abs/2605.06457v1
- Date: Thu, 07 May 2026 15:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.958617
- Title: Beyond Task Success: Measuring Workflow Fidelity in LLM-Based Agentic Payment Systems
- Title(参考訳): タスク成功を超えて: LLMベースのエージェント支払いシステムにおけるワークフローの忠実度を測定する
- Authors: Donghao Huang, Joon Kiat Chua, Zhaoxia Wang,
- Abstract要約: エージェント成功率(ASR)は、観測されたエージェントの実行シーケンスと期待されるエージェントの実行シーケンスを比較する軌跡-忠実度メトリックである。
ASRは18のLLMと90,000のタスクインスタンスにわたる階層型マルチエージェントシステム(HMASP)に適用される。
ASR診断によって誘導されるプロンプト改良と決定論的ルーティングガードは、大幅にTSRの改善をもたらす。
- 参考スコア(独自算出の注目度): 1.8717456484053328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based multi-agent systems are increasingly deployed for payment workflows, yet prevailing metrics, Task Success Rate (TSR) and Agent Handoff F1-Score (HF1), capture only final outcomes or unordered routing decisions. We introduce the Agentic Success Rate (ASR), a trajectory-fidelity metric that compares observed and expected agent execution sequences at the transition level, decomposing performance into Transition Recall and Transition Precision. Applied to the Hierarchical Multi-Agent System for Payments (HMASP) across 18 LLMs and 90,000 task instances, ASR reveals that 10 of 18 models systematically skip a confirmation checkpoint during payment checkout, a deviation invisible to both TSR and HF1, while 8 models enforce the checkpoint perfectly. Notably, GPT-4.1 exhibits hidden workflow shortcuts despite achieving perfect TSR and HF1, while GPT-5.2 achieves perfect ASR. Prompt refinements and deterministic routing guards guided by ASR diagnostics yield substantial TSR improvements, with gains up to +93.8 percentage points for previously struggling models, demonstrating that trajectory-level evaluation is essential in regulated domains.
- Abstract(参考訳): LLMベースのマルチエージェントシステムは、支払いワークフローにますますデプロイされているが、一般的なメトリクスであるタスク成功率(TSR)とエージェントハンドオフF1スコア(HF1)は、最終的な結果のみをキャプチャし、順序のないルーティング決定を行う。
本稿では,トランジションレベルにおいて観測されたエージェントの実行シーケンスと期待されるエージェントの実行シーケンスを比較し,性能をトランジションリコールとトランジション精度に分解するトラジェクトリ・フィデリティの指標であるエージェント成功率(ASR)を紹介する。
ASRは18のLLMと90,000のタスクインスタンスにわたる階層的マルチエージェントシステム(HMASP)に適用し、支払いチェックアウト中に18モデルのうち10モデルがシステム的に確認チェックポイントをスキップしていることを明らかにした。
特に、GPT-4.1は完全なTSRとHF1を達成する一方、GPT-5.2は完全なASRを達成する。
ASR診断によって導かれるプロンプトの洗練と決定論的ルーティングガードは、それまで苦戦していたモデルに対して最大で+93.8ポイントのTSRの改善をもたらし、トラジェクトリレベルの評価が規制領域において必須であることが示されている。
関連論文リスト
- AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。
AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文 参考訳(メタデータ) (2026-04-26T07:38:47Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - LLM Readiness Harness: Evaluation, Observability, and CI Gates for LLM/RAG Applications [51.56484100374058]
評価をデプロイメント決定ワークフローに変換するLLMおよびRAGアプリケーションのための準備性ハーネスを提案する。
このシステムは、最小限のAPI契約の下で、自動ベンチマーク、OpenTelemetryオブザーバビリティ、CI品質ゲートを組み合わせる。
チケットルーティングとBEIRタスクのハーネスを、完全なAzureマトリックスカバレッジで評価する。
論文 参考訳(メタデータ) (2026-03-28T18:03:32Z) - AgentHER: Hindsight Experience Replay for LLM Agent Trajectory Relabeling [12.42698406379544]
AgentHERは、自然言語エージェントトラジェクトリにHindsight Experience原則を適用することで、失われたトレーニング信号を回復する。
破棄された障害を高品質のSFT、DPO、ShareGPTトレーニングデータに変換する。
WebArena Replay (Zhou et al., 2024)とToolBench (Qin et al., 2024)では、AgentHERは4つのモデルファミリーで成功のみのSFTを+7.1-11.7ppで改善している。
論文 参考訳(メタデータ) (2026-03-22T18:36:58Z) - The Verifier Tax: Horizon Dependent Safety Success Tradeoffs in Tool Using LLM Agents [1.3299507495084417]
本研究では, 大規模言語モデル (LLM) エージェントを用いた多段階ツールにおいて, 実行時の安全でない動作に対する強制が, エンドツーエンドのタスクパフォーマンスに与える影響について検討する。
モデル依存相互作用の地平線(15~30ターン)を特定し、その結果を総合成功率(SR)、安全な成功率(SSR)、安全でない成功率(USR)に分解する。
論文 参考訳(メタデータ) (2026-03-18T16:16:34Z) - Verified Critical Step Optimization for LLM Agents [67.05296684575445]
クリティカルステップ最適化は、検証されたクリティカルステップに優先学習を集中する。
メソッドは、専門家のデモンストレーションではなく、失敗するポリシーの軌道から始まります。
GAIA-Text-103とXBench-DeepSearchの実験では、CSOはSFTベースラインよりも37%、相対的に26%改善している。
論文 参考訳(メタデータ) (2026-02-03T11:41:02Z) - ProRe: A Proactive Reward System for GUI Agents via Reasoner-Actor Collaboration [24.005812534024965]
ProReは汎用推論エージェントとドメイン固有評価エージェントを利用するプロアクティブ報酬システムである。
ProReは報酬精度を最大5.3%、F1スコアを19.4%向上させる。
論文 参考訳(メタデータ) (2025-09-26T03:29:36Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Exploring Expert Failures Improves LLM Agent Tuning [74.0772570556016]
本稿では,失敗した専門家の軌道から有益な行動を識別する専門的失敗の探索(EEF)を提案する。
EEFは、未解決のいくつかのサブタスクをうまく解決し、エージェントチューニング性能を改善する。
論文 参考訳(メタデータ) (2025-04-17T17:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。