論文の概要: VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
- arxiv url: http://arxiv.org/abs/2509.01055v1
- Date: Mon, 01 Sep 2025 01:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.520308
- Title: VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use
- Title(参考訳): VerlTool: ツール使用によるホロスティックなエージェント強化学習を目指して
- Authors: Dongfu Jiang, Yi Lu, Zhuofeng Li, Zhiheng Lyu, Ping Nie, Haozhe Wang, Alex Su, Hui Chen, Kai Zou, Chao Du, Tianyu Pang, Wenhu Chen,
- Abstract要約: VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
- 参考スコア(独自算出の注目度): 78.29315418819074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated success in enhancing LLM reasoning capabilities, but remains limited to single-turn interactions without tool integration. While recent Agentic Reinforcement Learning with Tool use (ARLT) approaches have emerged to address multi-turn tool interactions, existing works develop task-specific codebases that suffer from fragmentation, synchronous execution bottlenecks, and limited extensibility across domains. These inefficiencies hinder broader community adoption and algorithmic innovation. We introduce VerlTool, a unified and modular framework that addresses these limitations through systematic design principles. VerlTool provides four key contributions: (1) upstream alignment with VeRL ensuring compatibility and simplified maintenance, (2) unified tool management via standardized APIs supporting diverse modalities including code execution, search, SQL databases, and vision processing, (3) asynchronous rollout execution achieving near 2$\times$ speedup by eliminating synchronization bottlenecks, and (4) comprehensive evaluation demonstrating competitive performance across 6 ARLT domains. Our framework formalizes ARLT as multi-turn trajectories with multi-modal observation tokens (text/image/video), extending beyond single-turn RLVR paradigms. We train and evaluate models on mathematical reasoning, knowledge QA, SQL generation, visual reasoning, web search, and software engineering tasks, achieving results comparable to specialized systems while providing unified training infrastructure. The modular plugin architecture enables rapid tool integration requiring only lightweight Python definitions, significantly reducing development overhead and providing a scalable foundation for tool-augmented RL research. Our code is open-sourced at https://github.com/TIGER-AI-Lab/verl-tool.
- Abstract(参考訳): Reinforcement Learning with Verifiable Rewards (RLVR)はLLM推論能力の向上に成功しているが、ツール統合なしではシングルターンインタラクションに限られていない。
最近のAgenic Reinforcement Learning with Tool Use (ARLT)アプローチは、マルチターンツールインタラクションに対処するために登場したが、既存の作業では、断片化、同期実行のボトルネック、ドメイン間の拡張性の制限に苦しむタスク固有のコードベースが開発されている。
これらの非効率さは、より広いコミュニティ採用とアルゴリズムの革新を妨げる。
VerlToolは、体系的な設計原則を通じてこれらの制限に対処する統一的でモジュール化されたフレームワークです。
VerlToolは、(1)VeRLとのアップストリームアライメントによる互換性の確保とメンテナンスの簡略化、(2)コード実行、検索、SQLデータベース、ビジョン処理を含む様々なモダリティをサポートする標準化されたAPIによる統一されたツール管理、(3)同期ボトルネックを排除して2$\times$スピードアップに近い非同期ロールアウト実行、(4)ARLTドメイン6つにわたる競合性能を示す包括的な評価、の4つの主要なコントリビューションを提供する。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
我々は、数学的推論、知識QA、SQL生成、視覚的推論、Web検索、およびソフトウェア工学タスクのモデルを訓練し、評価し、統一的なトレーニング基盤を提供しながら、専門的なシステムに匹敵する結果を達成する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にし、開発オーバーヘッドを大幅に削減し、ツール拡張RL研究のためのスケーラブルな基盤を提供する。
私たちのコードはhttps://github.com/TIGER-AI-Lab/verl-tool.orgで公開されている。
関連論文リスト
- AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning [57.89304342666846]
OpenThinkIMGは、ツール拡張LVLMのための、最初のオープンソースで包括的なエンドツーエンドフレームワークです。
本稿では,LVLMを学習し,外部視覚ツールを起動するための適応的なポリシーを学ぶための,新しい強化学習フレームワークV-ToolRLを提案する。
V-ToolRLにより、LVLMは最適なツール利用戦略を自律的に発見できる。
論文 参考訳(メタデータ) (2025-05-13T14:35:51Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。