Fugu-MT 論文翻訳(概要): Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use

論文の概要: Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use

arxiv url: http://arxiv.org/abs/2509.12867v1
Date: Tue, 16 Sep 2025 09:22:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-09-17 17:50:52.997673
Title: Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use
Title（参考訳）: Tool-R1:エージェントツール使用のためのサンプル効率の良い強化学習
Authors: Yabo Zhang, Yihan Zeng, Qingyun Li, Zhen Hu, Kavin Han, Wangmeng Zuo,
Abstract要約: 大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
参考スコア（独自算出の注目度）: 50.02614257515131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) have demonstrated strong capabilities in language understanding and reasoning, yet they remain limited when tackling real-world tasks that require up-to-date knowledge, precise operations, or specialized tool use. To address this, we propose Tool-R1, a reinforcement learning framework that enables LLMs to perform general, compositional, and multi-step tool use by generating executable Python code. Tool-R1 supports integration of user-defined tools and standard libraries, with variable sharing across steps to construct coherent workflows. An outcome-based reward function, combining LLM-based answer judgment and code execution success, guides policy optimization. To improve training efficiency, we maintain a dynamic sample queue to cache and reuse high-quality trajectories, reducing the overhead of costly online sampling. Experiments on the GAIA benchmark show that Tool-R1 substantially improves both accuracy and robustness, achieving about 10\% gain over strong baselines, with larger improvements on complex multi-step tasks. These results highlight the potential of Tool-R1 for enabling reliable and efficient tool-augmented reasoning in real-world applications. Our code will be available at https://github.com/YBYBZhang/Tool-R1.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示してきたが、最新の知識、正確な操作、特別なツールの使用を必要とする現実世界のタスクに取り組む際には制限が残っている。そこで本稿では,LLMが実行可能なPythonコードを生成することで,汎用的,構成的,多段階的なツール利用を実現するための強化学習フレームワークであるTool-R1を提案する。 Tool-R1はユーザ定義のツールと標準ライブラリの統合をサポートし、一貫性のあるワークフローを構築するためのステップ間で変数を共有する。 LLMに基づく回答判断とコード実行の成功を組み合わせた結果に基づく報酬関数は、ポリシー最適化を導く。トレーニング効率を向上させるため,我々は,高品質なトラジェクトリをキャッシュし再利用するための動的サンプルキューを維持し,コストのかかるオンラインサンプリングのオーバーヘッドを低減する。 GAIAベンチマークの実験によると、Tool-R1は精度とロバスト性の両方を大幅に改善し、強力なベースラインよりも約10倍向上し、複雑なマルチステップタスクを大きく改善している。これらの結果は、現実世界のアプリケーションにおいて、信頼性と効率的なツール拡張推論を可能にするツールR1の可能性を強調している。私たちのコードはhttps://github.com/YBYBZhang/Tool-R1.comで公開されます。

関連論文リスト

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文参考訳（メタデータ） (2025-09-01T01:45:18Z)
AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文参考訳（メタデータ） (2025-07-29T14:12:28Z)
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。 Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文参考訳（メタデータ） (2025-05-22T09:00:19Z)
Acting Less is Reasoning More! Teaching Model to Act Efficiently [87.28134636548705]
ツール統合推論は、タスクを解決するために外部ツールを呼び出す機能によって、大きな言語モデルを拡張します。現在のアプローチは、外部ツールの使用効率や必要性を考慮せずに、最終的な正確性のためにのみ最適化されている。最小限のツールコールで正確な回答をモデルに提示するフレームワークを提案する。このアプローチでは,ツールコールを最大68.3%削減し,ツールの生産性を最大215.4%向上すると同時に,同等の回答精度を維持している。
論文参考訳（メタデータ） (2025-04-21T05:40:05Z)
Efficient and Scalable Estimation of Tool Representations in Vector Space [34.767193045989515]
ツール検索のための合成データを生成するためのフレームワークと,小型エンコーダモデルを用いた効率的なデータ駆動型ツール検索戦略を提案する。 ToolBankは、実際のユーザ利用を反映した、新しいツール検索データセットです。これらの新しい方法により、ToolBenchデータセット上のRecall@Kで最大27.28、ToolBank上のRecall@Kで30.5の改善を実現しています。
論文参考訳（メタデータ） (2024-09-02T19:39:24Z)
CRAFT: Customizing LLMs by Creating and Retrieving from Specialized Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文参考訳（メタデータ） (2023-09-29T17:40:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。