論文の概要: One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning
- arxiv url: http://arxiv.org/abs/2510.26167v1
- Date: Thu, 30 Oct 2025 06:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.677071
- Title: One Model to Critique Them All: Rewarding Agentic Tool-Use via Efficient Reasoning
- Title(参考訳): 全てを批判する1つのモデル:効率的な推論によるエージェントツールの再利用
- Authors: Renhao Li, Jianhong Tu, Yang Su, Hamid Alinejad-Rokny, Derek F. Wong, Junyang Lin, Min Yang,
- Abstract要約: リワードモデル(RM)は、大きな言語モデルと人間の嗜好の整合において重要な役割を果たす。
一般的なツール使用シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
- 参考スコア(独自算出の注目度): 54.580646706013965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward models (RMs) play a critical role in aligning large language models (LLMs) with human preferences. Yet in the domain of tool learning, the lack of RMs specifically designed for function-calling tasks has limited progress toward more capable agentic AI. We introduce ToolRM, a family of lightweight generative RMs tailored for general tool-use scenarios. To build these models, we propose a novel pipeline that constructs pairwise preference data using rule-based scoring and multidimensional sampling. This yields ToolPref-Pairwise-30K, a diverse, balanced, and challenging dataset of critique tasks that supports reinforcement learning with verifiable feedback. To evaluate tool-use RMs, we also introduce TRBench$_{BFCL}$, a benchmark built on the agentic evaluation suite BFCL. Trained on our constructed data, models from the Qwen3-4B/8B series achieve up to 14.28% higher accuracy, substantially outperforming frontier models such as Claude 4 and OpenAI o3 in pairwise reward judgments. Beyond training objectives, ToolRM generalizes to broader critique tasks, including Best-of-N sampling and self-correction. Experiments on ACEBench highlight its effectiveness and efficiency, enabling inference-time scaling and reducing output token usage by over 66%. We release data and model checkpoints to facilitate future research.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)と人間の嗜好の整合において重要な役割を果たす。
しかし、ツール学習の分野では、関数呼び出しタスク用に特別に設計されたRMの欠如は、より有能なエージェントAIへの進歩を限定している。
汎用のツール・ユース・シナリオに適した軽量な生成型RMのファミリーであるToolRMを紹介する。
これらのモデルを構築するために,ルールベースのスコアリングと多次元サンプリングを用いたペアワイズ選好データを構築するパイプラインを提案する。
ToolPref-Pairwise-30Kは、多種多様でバランスのとれた、困難な批判的なタスクのデータセットで、検証可能なフィードバックで強化学習をサポートする。
ツール利用RMの評価には,エージェント評価スイートBFCL上に構築されたベンチマークTRBench$_{BFCL}$も導入する。
構築したデータに基づいて、Qwen3-4B/8Bシリーズのモデルでは、最大14.28%の精度で、Claude 4やOpenAI o3といったフロンティアモデルよりも、ペアの報酬判定で大幅に優れています。
トレーニングの目的以外にも、ToolRMはBest-of-Nサンプリングや自己補正など、より広範な批判的なタスクに一般化している。
ACEBenchの実験では、その有効性と効率を強調し、推論時間のスケーリングを可能にし、出力トークンの使用量を66%以上削減した。
我々は将来の研究を促進するためにデータとモデルチェックポイントをリリースする。
関連論文リスト
- OpenReward: Learning to Reward Long-form Agentic Tasks via Reinforcement Learning [41.49024599460379]
大規模言語モデル(LLM)の整合には,リワードモデル(RM)が不可欠である。
ツール拡張型ロングフォーム報酬モデルであるOpenRMを導入し、外部ツールを呼び出して適切な証拠を収集することで、オープンエンドの応答を判断する。
新たにコンパイルされた3つのデータセットと2つの広く使用されているベンチマークの実験は、OpenRMが既存の報酬モデリングアプローチを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-28T17:02:46Z) - Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - ToolRM: Outcome Reward Models for Tool-Calling Large Language Models [18.60378078755052]
ツールコールシナリオにおける報酬モデルの性能を評価するための最初のベンチマークであるFC-RewardBenchを紹介する。
我々の分析は、現在の報酬モデルが効果的なツール使用のキーシグナルを見逃すことがしばしばあり、ドメイン固有のモデリングの必要性を強調していることを示している。
我々は1.7Bから14Bまでのモデルをトレーニングし、7つのドメイン外のベンチマークで評価する。
論文 参考訳(メタデータ) (2025-09-15T14:17:17Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。