論文の概要: RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use
- arxiv url: http://arxiv.org/abs/2509.06980v1
- Date: Sun, 31 Aug 2025 16:47:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:26.99394
- Title: RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use
- Title(参考訳): LLM Multi-Turn Tool-Use のためのプラグインとプレイの強化学習フレームワーク RLFactory
- Authors: Jiajun Chai, Guojun Yin, Zekun Xu, Chuhuai Yue, Yi Jia, Siyu Xia, Xiaohan Wang, Jiwen Jiang, Xiaoguang Li, Chengqi Dong, Hang He, Wei Lin,
- Abstract要約: 大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
- 参考スコア(独自算出の注目度): 50.52940111891476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models excel at basic reasoning but struggle with tasks that require interaction with external tools. We present RLFactory, a plug-and-play reinforcement learning post-training framework for multi-round tool use. RLFactory tackles (i) tool-call stability and adaptability amid tool heterogeneity and interface issues via an asyncio-based asynchronous caller and a decoupled tool/training architecture, and (ii) diverse evaluation needs via a reward layer supporting rule-based, model-judgment, and tool-verification signals. It reconstructs the MDP by introducing observation markers from tool feedback, closing the loop among model, tools, and environment, and implements a generate-parse-invoke-update workflow for dynamic policy optimization. On Search-R1 with Qwen3-4B, RLFactory achieves a 0.486 test score on the Natural Questions (NQ) dataset, surpassing larger models trained with similar techniques (e.g., Qwen2.5-7B-Instruct-GRPO at 0.473), and increases training throughput by 6.8x. RLFactory provides a low-barrier, highly adaptable framework for strengthening multi-round tool use of LLMs in real-world scenarios. Code: https://github.com/Simple-Efficient/RL-Factory.
- Abstract(参考訳): 大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
RLFactoryは,マルチラウンドツール使用のための,プラグアンドプレイ強化学習フレームワークである。
RLFactory タックル
(i)非同期呼び出しと分離されたツール/トレーニングアーキテクチャによるツールの不均一性とインターフェースの問題に対するツールコールの安定性と適応性
(II) ルールベース, モデル判断, ツール検証信号をサポートする報酬層による多様な評価の必要性。
ツールフィードバックから観察マーカーを導入し、モデル、ツール、環境間のループを閉じることでMDPを再構築し、動的ポリシー最適化のためのジェネレーション・パース・インボイク更新ワークフローを実装する。
Qwen3-4BのSearch-R1では、RLFactoryがNatural Questions (NQ)データセットで0.486のテストスコアを獲得し、同様の技術(Qwen2.5-7B-Instruct-GRPOを0.473で、トレーニングスループットを6.8倍に向上させた。
RLFactoryは、現実のシナリオにおけるLLMのマルチラウンドツール使用を強化するための、ローバリアで高度に適応可能なフレームワークを提供する。
コード:https://github.com/Simple-Efficient/RL-Factory。
関連論文リスト
- Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [39.351627468128214]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。