論文の概要: ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
- arxiv url: http://arxiv.org/abs/2509.11963v1
- Date: Mon, 15 Sep 2025 14:17:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.33246
- Title: ToolRM: Outcome Reward Models for Tool-Calling Large Language Models
- Title(参考訳): ToolRM: ツールカーリング大規模言語モデルのためのアウトカムリワードモデル
- Authors: Mayank Agarwal, Ibrahim Abdelaziz, Kinjal Basu, Merve Unuvar, Luis A. Lastras, Yara Rizk, Pavan Kapanipathi,
- Abstract要約: ツールコールシナリオにおける報酬モデルの性能を評価するための最初のベンチマークであるFC-RewardBenchを紹介する。
我々の分析は、現在の報酬モデルが効果的なツール使用のキーシグナルを見逃すことがしばしばあり、ドメイン固有のモデリングの必要性を強調していることを示している。
我々は1.7Bから14Bまでのモデルをトレーニングし、7つのドメイン外のベンチマークで評価する。
- 参考スコア(独自算出の注目度): 18.60378078755052
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) increasingly interact with external tools, reward modeling for tool use has become a critical yet underexplored area. Existing reward models, trained primarily on natural language outputs, struggle to evaluate tool-based reasoning and execution. To quantify this gap, we introduce FC-RewardBench, the first benchmark designed to systematically assess reward models' performance in tool-calling scenarios. Our analysis shows that current reward models often miss key signals of effective tool use, highlighting the need for domain-specific modeling. To address this, we propose a training framework for outcome-based reward models using data synthesized from permissively licensed, open-weight LLMs. We train models ranging from 1.7B to 14B parameters and evaluate them across seven out-of-domain benchmarks. These models consistently outperform general-purpose baselines, achieving up to 25\% average improvement in downstream task performance and enabling data-efficient fine-tuning through reward-guided filtering.
- Abstract(参考訳): 大規模言語モデル(LLM)が外部ツールとますます相互作用するにつれて、ツール使用に対する報酬モデリングは、重要で未調査の領域となっている。
既存の報酬モデルは、主に自然言語の出力に基づいて訓練されており、ツールベースの推論と実行を評価するのに苦労している。
このギャップを定量化するために,ツールコールシナリオにおける報酬モデルの性能を体系的に評価する最初のベンチマークであるFC-RewardBenchを紹介する。
我々の分析は、現在の報酬モデルが効果的なツール使用のキーシグナルを見逃すことがしばしばあり、ドメイン固有のモデリングの必要性を強調していることを示している。
そこで本研究では,許容ライセンス付きオープンウェイトLLMから合成したデータを用いた結果ベース報酬モデルのトレーニングフレームワークを提案する。
我々は1.7Bから14Bまでのモデルをトレーニングし、7つのドメイン外のベンチマークで評価する。
これらのモデルは汎用ベースラインを一貫して上回り、ダウンストリームタスクのパフォーマンスを最大25%改善し、報酬誘導フィルタリングによるデータ効率の高い微調整を可能にする。
関連論文リスト
- Activation Reward Models for Few-Shot Model Alignment [77.37511364793515]
アクティベーションリワードモデル(アクティベーションRM)について紹介する。
アクティベーションRMはアクティベーションステアリングを利用して、最小限の監督と追加のモデル微調整を使わずに、適切に整合した報酬信号を構築する。
我々は、報酬ハッキング行動の緩和におけるアクティベーションRMの有効性を実証し、安全クリティカルなアプリケーションに対するそれらの実用性を強調した。
論文 参考訳(メタデータ) (2025-07-02T05:10:29Z) - GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。
このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文 参考訳(メタデータ) (2025-06-17T04:34:27Z) - A Systematic Analysis of Base Model Choice for Reward Modeling [19.061286145419732]
本稿では,ベースモデル選択が報酬モデルの性能に及ぼす影響を体系的に分析する。
結果は、最も一般的な(すなわちデフォルト)選択と比較して、パフォーマンスが最大14%向上できることを示している。
論文 参考訳(メタデータ) (2025-05-16T01:27:03Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Self-Taught Evaluators [77.92610887220594]
本稿では,人工的なトレーニングデータのみを用いて,人間のアノテーションを使わずに即興で証明することを目的としたアプローチを提案する。
我々の自己学習評価器は、RewardBench上で75.4から88.3までの強いLDMを改善することができる。
論文 参考訳(メタデータ) (2024-08-05T17:57:02Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Bellman: A Toolbox for Model-Based Reinforcement Learning in TensorFlow [14.422129911404472]
Bellmanはこのギャップを埋めることを目指しており、モデルベースのRLツールボックスを初めて完全に設計し、テストした。
我々のモジュラーアプローチは、幅広い環境モデルと、最先端アルゴリズムを復元する汎用モデルベースのエージェントクラスを組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-26T11:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。