論文の概要: ToolRL: Reward is All Tool Learning Needs
- arxiv url: http://arxiv.org/abs/2504.13958v1
- Date: Wed, 16 Apr 2025 21:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 08:18:46.125477
- Title: ToolRL: Reward is All Tool Learning Needs
- Title(参考訳): ToolRL: Rewardはツールの学習に必要なもの
- Authors: Cheng Qian, Emre Can Acikgoz, Qi He, Hongru Wang, Xiusi Chen, Dilek Hakkani-Tür, Gokhan Tur, Heng Ji,
- Abstract要約: 大規模言語モデル(LLM)は、ツールの使用能力を得るために、しばしば監督された微調整(SFT)を行う。
近年の強化学習(RL)の進歩は、有望な推論と一般化能力を示している。
本稿では、RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する最初の総合的研究について述べる。
- 参考スコア(独自算出の注目度): 54.16305891389931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Models (LLMs) often undergo supervised fine-tuning (SFT) to acquire tool use capabilities. However, SFT struggles to generalize to unfamiliar or complex tool use scenarios. Recent advancements in reinforcement learning (RL), particularly with R1-like models, have demonstrated promising reasoning and generalization abilities. Yet, reward design for tool use presents unique challenges: multiple tools may be invoked with diverse parameters, and coarse-grained reward signals, such as answer matching, fail to offer the finegrained feedback required for effective learning. In this work, we present the first comprehensive study on reward design for tool selection and application tasks within the RL paradigm. We systematically explore a wide range of reward strategies, analyzing their types, scales, granularity, and temporal dynamics. Building on these insights, we propose a principled reward design tailored for tool use tasks and apply it to train LLMs using Group Relative Policy Optimization (GRPO). Empirical evaluations across diverse benchmarks demonstrate that our approach yields robust, scalable, and stable training, achieving a 17% improvement over base models and a 15% gain over SFT models. These results highlight the critical role of thoughtful reward design in enhancing the tool use capabilities and generalization performance of LLMs. All the codes are released to facilitate future research.
- Abstract(参考訳): 現在のLarge Language Models (LLMs) は、ツール使用能力を取得するために監督された微調整(SFT)を行うことが多い。
しかし、SFTは慣れていない、あるいは複雑なツールの使用シナリオに一般化するのに苦労している。
近年の強化学習(RL)の進歩、特にR1のようなモデルでは、有望な推論と一般化能力が証明されている。
しかし、ツール利用の報酬設計には固有の課題がある: 複数のツールが多様なパラメータで呼び出され、回答マッチングのような粗い粒度の報酬信号は、効果的な学習に必要なきめ細かいフィードバックを提供することができない。
本稿では,RLパラダイムにおけるツール選択とアプリケーションタスクに対する報酬設計に関する総合的研究について紹介する。
我々は、様々な報酬戦略を体系的に探求し、そのタイプ、スケール、粒度、時間的ダイナミクスを分析した。
これらの知見に基づいて、ツール使用タスクに適した原則付き報酬設計を提案し、グループ相対ポリシー最適化(GRPO)を用いてLLMの訓練に応用する。
多様なベンチマークによる実証的な評価は、我々のアプローチが堅牢でスケーラブルで安定したトレーニングをもたらし、ベースモデルよりも17%改善し、SFTモデルよりも15%向上していることを示している。
これらの結果は,LLMのツール利用能力の向上と一般化性能向上における,思慮深い報酬設計の重要性を浮き彫りにしている。
すべてのコードは、将来の研究を促進するためにリリースされます。
関連論文リスト
- OTC: Optimal Tool Calls via Reinforcement Learning [87.28134636548705]
ツール統合報酬は,正しさとツール効率を共同で考慮し,高いツール生産性を向上する。
このアプローチでは,ツールコールを最大73.1%削減し,ツールの生産性を最大229.4%向上すると同時に,同等の回答精度を維持している。
論文 参考訳(メタデータ) (2025-04-21T05:40:05Z) - ReTool: Reinforcement Learning for Strategic Tool Use in LLMs [27.07998056454784]
ReToolは、ツール統合学習によるロングフォーム推論を強化する。
モデルは400のトレーニングステップで67%の精度を達成する。
注目すべきは、ReTool-32Bが72.5%の精度で設定できることだ。
論文 参考訳(メタデータ) (2025-04-15T18:10:22Z) - VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - FamilyTool: A Multi-hop Personalized Tool Use Benchmark [94.1158032740113]
ファミリーベースナレッジグラフ(KG)に基づく新しいベンチマークであるFamilyToolを紹介する。
FamilyToolは1から3つのリレーショナルホップにまたがるクエリを伴う大規模言語モデルに挑戦する。
実験により、最先端のLCMにおいて大きな性能差が示された。
論文 参考訳(メタデータ) (2025-04-09T10:42:36Z) - ToolACE-R: Tool Learning with Adaptive Self-Refinement [84.69651852838794]
ツール学習により、大規模言語モデルは複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール実行のための適応型自己調整手法であるToolACE-Rを提案する。
提案手法は,様々なサイズのベースモデルと互換性のある提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - GenTool: Enhancing Tool Generalization in Language Models through Zero-to-One and Weak-to-Strong Simulation [37.85029997364506]
大規模言語モデル(LLM)は、外部ツールを統合することで、AIアシスタントとしての能力を向上することができる。
我々は,ツール利用における多種多様な一般化課題に備えた,新しい学習フレームワークGenToolを提案する。
提案手法は,ゼロ・ツー・ワン・ジェネリゼーションと弱・ストロング・ジェネリゼーションという,実世界の応用に不可欠な2つの基本次元に対処する。
論文 参考訳(メタデータ) (2025-02-26T09:54:33Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - LLMs in the Imaginarium: Tool Learning through Simulated Trial and Error [54.954211216847135]
既存の大規模言語モデル(LLM)は30%から60%の範囲でしか正当性に至らない。
試行錯誤(STE)を模擬したツール拡張LDMの生物学的なインスピレーション法を提案する。
STEは、試行錯誤、想像力、記憶という、生物学的システムにおけるツール使用行動の成功のための3つの重要なメカニズムを編成する。
論文 参考訳(メタデータ) (2024-03-07T18:50:51Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - Efficient Tool Use with Chain-of-Abstraction Reasoning [63.08202389132155]
大規模言語モデル(LLM)は、現実世界の知識に対する推論の基礎となる必要がある。
マルチステップ推論問題におけるツールの実行には,微調整LDMエージェントの課題が残されている。
マルチステップ推論におけるツールの活用方法として, LLM の新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T21:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。