論文の概要: ToolBrain: A Flexible Reinforcement Learning Framework for Agentic Tools
- arxiv url: http://arxiv.org/abs/2510.00023v1
- Date: Wed, 24 Sep 2025 16:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.102309
- Title: ToolBrain: A Flexible Reinforcement Learning Framework for Agentic Tools
- Title(参考訳): ToolBrain: エージェントツールのための柔軟な強化学習フレームワーク
- Authors: Quy Minh Le, Minh Sao Khue Luu, Khanh-Tung Tran, Duc-Hai Nguyen, Hoang-Quoc-Viet Pham, Quan Le, Hoang Thanh Lam, Hoang D. Nguyen,
- Abstract要約: ToolBrainはフレキシブル強化学習(RL)を備えたエージェントモデルで使用されるコーチングツールのフレームワーク
GRPOやDPOといったRLアルゴリズムや教師あり学習など、幅広いトレーニング戦略をサポートしている。
効率的な開発のための大規模から小規模なモデルからの知識蒸留、ツール記述からのタスクの自動生成、シームレスなツール検索、UnslothによるQLoRAによる効率的な微調整パイプライン、ビット/バイトによる量子化推論など、有用な機能を備えている。
- 参考スコア(独自算出の注目度): 4.751741320941162
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective tool use is essential for agentic AI, yet training agents to utilize tools remains challenging due to manually designed rewards, limited training data, and poor multi-tool selection, resulting in slow adaptation, wasted computational resources, and suboptimal performance. We introduce ToolBrain, a lightweight and user-friendly framework for coaching tool use in agentic models with flexible reinforcement learning (RL), easing the barriers for researchers and practitioners to adapt LLM-based agents to specific domains. It supports a wide range of training strategies, including RL algorithms such as GRPO and DPO, as well as supervised learning. ToolBrain enables custom reward callables directly on an agent's execution traces or simply utilizes an automated LLM-as-a-judge system for reward generation. It is packed with useful capabilities, including knowledge distillation from large to small models for efficient development, automatic task generation from tool descriptions, seamless tool retrieval, efficient fine-tuning pipelines with QLoRA through Unsloth, and quantized inference via bitsandbytes. We demonstrate ToolBrain through diverse use cases, such as training a CodeAct agent to autonomously execute email search tasks, showing fast, targeted improvements (up to 30.0%) in tool-use skills while keeping the codebase simple and extensible in Agentic AI. Our framework is publicly available at https://toolbrain.org.
- Abstract(参考訳): エージェントAIには効果的なツールの使用が不可欠だが、手動で設計した報酬、限られたトレーニングデータ、マルチツール選択が貧弱なため、ツールを利用するためのトレーニングエージェントは依然として困難なままである。
ToolBrainは、フレキシブル強化学習(RL)を備えたエージェントモデルにおけるツール使用のコーチングのための軽量でユーザフレンドリなフレームワークであり、研究者や実践者が特定のドメインにLLMベースのエージェントを適用するための障壁を緩和する。
GRPOやDPOといったRLアルゴリズムや教師あり学習など、幅広いトレーニング戦略をサポートしている。
ToolBrainは、エージェントの実行トレースに直接、カスタムのリワード呼び出しを可能にするか、あるいは報酬生成のために自動LLM-as-a-judgeシステムを使用する。
効率的な開発のための大規模から小規模なモデルからの知識蒸留、ツール記述からのタスクの自動生成、シームレスなツール検索、UnslothによるQLoRAによる効率的な微調整パイプライン、ビット/バイトによる量子化推論など、有用な機能を備えている。
私たちは、CodeActエージェントをトレーニングして、自動でEメール検索タスクを実行したり、Agentic AIでコードベースをシンプルかつ拡張可能にしながら、ツール使用スキルの高速でターゲットとした改善(最大30.0%)を示すなど、さまざまなユースケースを通じてToolBrainをデモします。
私たちのフレームワークはhttps://toolbrain.org.comで公開されています。
関連論文リスト
- Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - Advancing SLM Tool-Use Capability using Reinforcement Learning [0.0]
ツールを効果的に利用できることは、LLM(Large Language Models)の定義機能となり、外部データや内部リソースにアクセスできるようになった。
小言語モデル(SLM)は、特にリソース制約のある設定において、ツールの使用を正確に統合する際の課題に直面します。
本研究では,強化学習,特にグループ相対的政策最適化がSLMのツール利用をいかに向上させるかを検討する。
論文 参考訳(メタデータ) (2025-09-03T07:41:14Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - AgentFly: Extensible and Scalable Reinforcement Learning for LM Agents [25.735754822676277]
言語モデル(LM)エージェントは、自律的にタスクを完了させる能力において、大きな注目を集めている。
強化学習(RL)は、推論や事実性など、LMの能力を高めるために研究されている。
AgentFlyは、多様なRLアルゴリズムでLMエージェントを強化するために設計されたスケーラブルでエージェント-RLフレームワークである。
論文 参考訳(メタデータ) (2025-07-20T10:22:36Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - ToolGen: Unified Tool Retrieval and Calling via Generation [34.34787641393914]
ToolGenは、ツール知識を大きな言語モデルのパラメータに直接統合するパラダイムシフトです。
ToolGenは、ツール検索と自律タスク補完の両方において、優れた結果が得られることを示す。
ToolGenは、より汎用的で効率的で自律的なAIシステムを実現する。
論文 参考訳(メタデータ) (2024-10-04T13:52:32Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。