論文の概要: AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents
- arxiv url: http://arxiv.org/abs/2603.14465v1
- Date: Sun, 15 Mar 2026 16:13:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.82473
- Title: AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents
- Title(参考訳): AgentProcessBench: ツール使用エージェントのステップレベルプロセス品質診断
- Authors: Shengda Fan, Xuyan Ye, Yupeng Huo, Zhi-Yuan Chen, Yiju Guo, Shenzhi Yang, Wenkai Yang, Shuqi Ye, Jingwen Chen, Haotian Chen, Xin Cong, Yankai Lin,
- Abstract要約: 我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
- 参考スコア(独自算出の注目度): 50.481033105867205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Language Models (LLMs) have evolved into tool-using agents, they remain brittle in long-horizon interactions. Unlike mathematical reasoning where errors are often rectifiable via backtracking, tool-use failures frequently induce irreversible side effects, making accurate step-level verification critical. However, existing process-level benchmarks are predominantly confined to closed-world mathematical domains, failing to capture the dynamic and open-ended nature of tool execution. To bridge this gap, we introduce AgentProcessBench, the first benchmark dedicated to evaluating step-level effectiveness in realistic, tool-augmented trajectories. The benchmark comprises 1,000 diverse trajectories and 8,509 human-labeled step annotations with 89.1% inter-annotator agreement. It features a ternary labeling scheme to capture exploration and an error propagation rule to reduce labeling ambiguity. Extensive experiments reveal key insights: (1) weaker policy models exhibit inflated ratios of correct steps due to early termination; (2) distinguishing neutral and erroneous actions remains a significant challenge for current models; and (3) process-derived signals provide complementary value to outcome supervision, significantly enhancing test-time scaling. We hope AgentProcessBench can foster future research in reward models and pave the way toward general agents. The code and data are available at https://github.com/RUCBM/AgentProcessBench.
- Abstract(参考訳): 大規模言語モデル(LLM)はツール使用エージェントへと進化してきたが、長い水平相互作用において脆弱なままである。
バックトラッキングによってエラーが修正される数学的推論とは異なり、ツール使用の失敗は、しばしば不可逆的な副作用を誘発し、正確なステップレベルの検証が重要となる。
しかし、既存のプロセスレベルのベンチマークは主にクローズドワールドな数学的領域に限られており、ツール実行の動的でオープンな性質を捉えていない。
このギャップを埋めるために、我々はAgentProcessBenchを紹介します。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
1)早期終了による適切なステップの膨張率を示す弱い政策モデル,(2)中立行動と誤行動の区別は現在のモデルにとって重要な課題であり,(3)プロセス由来の信号は結果の監視に補完的な価値を与え,テスト時間スケーリングを著しく向上させる。
AgentProcessBenchは、報酬モデルにおける将来の研究を奨励し、一般エージェントへの道を開くことを願っている。
コードとデータはhttps://github.com/RUCBM/AgentProcessBench.comで公開されている。
関連論文リスト
- TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning [4.928838343487574]
既存の不確実性プロキシは、シングルショットテキスト生成に重点を置いている。
本稿では,マルチコントロールツール-エージェント-ユーザインタラクションのためのトラジェクトリレベルの不確実性指標であるTRACERを紹介する。
論文 参考訳(メタデータ) (2026-02-11T22:23:56Z) - AgentDevel: Reframing Self-Evolving LLM Agents as Release Engineering [8.201374511929538]
AgentDevelは、現行のエージェントを反復的に実行するリリースエンジニアリングパイプラインである。
実行トレースから実装盲の症状レベルの品質信号を生成する。
主要な症状パターンを集約し、監査可能なエンジニアリング仕様を生成する。
論文 参考訳(メタデータ) (2026-01-08T05:49:01Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - How Can Input Reformulation Improve Tool Usage Accuracy in a Complex Dynamic Environment? A Study on $τ$-bench [58.114899897566964]
マルチターンの会話環境では、大きな言語モデル(LLM)は、一貫性のある推論とドメイン固有のポリシーへの固執にしばしば苦労する。
本稿では,関連するドメインルールを付加したユーザクエリを自動的に再構成するIRMA(Input-Reformulation Multi-Agent)フレームワークを提案する。
IRMAはReAct、Function Calling、Self-Reflectionをそれぞれ16.1%、12.7%、19.1%で大きく上回っている。
論文 参考訳(メタデータ) (2025-08-28T15:57:33Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。