論文の概要: ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
- arxiv url: http://arxiv.org/abs/2601.12294v1
- Date: Sun, 18 Jan 2026 07:48:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.557857
- Title: ToolPRMBench: Evaluating and Advancing Process Reward Models for Tool-using Agents
- Title(参考訳): ToolPRMBench: ツール利用エージェントのためのプロセスリワードモデルの評価と改善
- Authors: Dawei Li, Yuguang Yao, Zhen Tan, Huan Liu, Ruocheng Guo,
- Abstract要約: 逆誘導探索法はツール使用エージェントの強化に強い可能性を示している。
ツール使用環境におけるPRMの体系的かつ信頼性の高い評価ベンチマークが欠如している。
ツール使用エージェントのPRM評価に特化して設計された大規模ベンチマークであるToolPRMBenchを紹介する。
- 参考スコア(独自算出の注目度): 31.77712252239516
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward-guided search methods have demonstrated strong potential in enhancing tool-using agents by effectively guiding sampling and exploration over complex action spaces. As a core design, those search methods utilize process reward models (PRMs) to provide step-level rewards, enabling more fine-grained monitoring. However, there is a lack of systematic and reliable evaluation benchmarks for PRMs in tool-using settings. In this paper, we introduce ToolPRMBench, a large-scale benchmark specifically designed to evaluate PRMs for tool-using agents. ToolPRMBench is built on top of several representative tool-using benchmarks and converts agent trajectories into step-level test cases. Each case contains the interaction history, a correct action, a plausible but incorrect alternative, and relevant tool metadata. We respectively utilize offline sampling to isolate local single-step errors and online sampling to capture realistic multi-step failures from full agent rollouts. A multi-LLM verification pipeline is proposed to reduce label noise and ensure data quality. We conduct extensive experiments across large language models, general PRMs, and tool-specialized PRMs on ToolPRMBench. The results reveal clear differences in PRM effectiveness and highlight the potential of specialized PRMs for tool-using. Code and data will be released at https://github.com/David-Li0406/ToolPRMBench.
- Abstract(参考訳): 逆誘導探索法は, 複雑な行動空間のサンプリングと探索を効果的に導くことで, ツール利用エージェントの強化に強い可能性を示している。
コア設計としては、プロセス報酬モデル(PRM)を使用してステップレベルの報酬を提供し、よりきめ細かい監視を可能にする。
しかし、ツール使用環境において、PRMの体系的かつ信頼性の高い評価ベンチマークが欠如している。
本稿では,ツール利用エージェントのPRM評価に特化して設計された大規模ベンチマークであるToolPRMBenchを紹介する。
ToolPRMBenchはいくつかの代表的なツール使用ベンチマーク上に構築されており、エージェントのトラジェクトリをステップレベルのテストケースに変換する。
それぞれのケースには、インタラクション履歴、正しいアクション、妥当だが正しくない代替手段、関連するツールメタデータが含まれている。
ローカルな単一ステップエラーを分離するためのオフラインサンプリングと,フルエージェントロールアウトから現実的なマルチステップ障害をキャプチャするオンラインサンプリングをそれぞれ利用した。
ラベルノイズを低減し,データ品質を確保するため,マルチLLM検証パイプラインを提案する。
ツールPRMBench 上で,大規模言語モデル,汎用 PRM およびツール特化 PRM の広範な実験を行う。
その結果, PRMの有効性の差異が明らかとなり, ツール・ユースのための専用の PRM の可能性が明らかとなった。
コードとデータはhttps://github.com/David-Li0406/ToolPRMBench.comで公開される。
関連論文リスト
- MCPAgentBench: A Real-world Task Benchmark for Evaluating LLM Agent MCP Tool Use [12.220519951554133]
MCPAgentBenchは、エージェントのツール使用能力を評価するための実世界のMCP定義に基づくベンチマークである。
評価には動的サンドボックス環境が使われており、エージェントにイントラクタを含む候補ツールリストを表示する。
さまざまな最新の主要言語モデルで実施された実験は、複雑で多段階のツール呼び出しの処理において、大きなパフォーマンス上の違いを示している。
論文 参考訳(メタデータ) (2025-12-31T02:09:48Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - PRInTS: Reward Modeling for Long-Horizon Information Seeking [74.14496236655911]
PRInTS(PRInTS)は、二重機能で訓練された生成型PRMである。
PRInTSは,オープンソースモデルと特殊エージェントの情報検索能力を向上させる。
論文 参考訳(メタデータ) (2025-11-24T17:09:43Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning [54.580646706013965]
リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-30T06:08:27Z) - T^2Agent A Tool-augmented Multimodal Misinformation Detection Agent with Monte Carlo Tree Search [51.91311158085973]
多重モーダル誤報は、しばしば混合偽造源から発生し、動的推論と適応的検証を必要とする。
我々はモンテカルロ木探索を用いたツールキットを組み込んだ新しい誤情報検出剤T2Agentを提案する。
大規模な実験により、T2Agentは、混在するマルチモーダル誤報ベンチマークにおいて、既存のベースラインを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-05-26T09:50:55Z) - Iterative Tool Usage Exploration for Multimodal Agents via Step-wise Preference Tuning [68.00304954972232]
コントローラ、例えば視覚言語モデルと外部ツールを統合するマルチモーダルエージェントは、複雑なマルチモーダルタスクに対処する際、顕著な能力を示した。
これらのエージェントを訓練するための既存のアプローチは、広範囲なヒューマン・アノテートされたタスク・アンサー・ペアとツール・トラジェクトリに依存している。
本研究では,事前に収集したデータのないマルチモーダルエージェント,すなわち SPORT の反復ツール利用探索手法を提案する。
Sportには、タスク合成、ステップサンプリング、ステップ検証、優先度調整の4つの反復的なコンポーネントがある。
論文 参考訳(メタデータ) (2025-04-30T12:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。