論文の概要: Adaptive Tool Generation with Models as Tools and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.06825v2
- Date: Thu, 09 Oct 2025 04:38:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.584113
- Title: Adaptive Tool Generation with Models as Tools and Reinforcement Learning
- Title(参考訳): モデルを用いた適応ツール生成と強化学習
- Authors: Chenpeng Wang, Xiaojie Cheng, Chunye Wang, Linfeng Yang, Lei Zhang,
- Abstract要約: MTRは、ツール強化推論のためのシミュレーションファーストのトレーニングフレームワークである。
スキーマ検証されたシミュレートされた観察で、完全なReActトレースから学習する。
MTRは、ライブAPIシステムと競合するエクサクトマッチ(EM)スコアを取得する。
- 参考スコア(独自算出の注目度): 3.592245101862886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented language models have demonstrated strong capabilities, but their reliance on live API access creates scalability and reliability challenges during training and deployment. We propose MTR, a simulation-first training framework for tool-augmented reasoning. Instead of relying on live APIs, MTR learns from complete ReAct traces with schema-validated, simulated observations. Our approach operates through a multi-agent architecture where a ToolMaker generates task-specific, OpenAI-compatible tool interfaces, an AutoAgent produces structured think-act-observe sequences, and a ToolActor simulates realistic responses. Training proceeds in two stages: Stage-1 Supervised Fine-Tuning (SFT) teaches 'trace grammar' from complete reasoning sequences; Stage-2 Group Relative Policy Optimization (GRPO) optimizes strategy with a composite trace reward that balances answer correctness and internal consistency. Across four multi-hop QA benchmarks (HotpotQA, MuSiQue, 2WikiMultiHopQA, Bamboogle), MTR attains competitive Exact Match (EM) scores to live-API systems and excels on reasoning-intensive tasks, suggesting that effective tool reasoning can be learned from structured traces without live interactions.
- Abstract(参考訳): ツール拡張された言語モデルは強力な機能を示しているが、ライブAPIアクセスへの依存は、トレーニングやデプロイメントにおいてスケーラビリティと信頼性の課題を生み出している。
ツール強化推論のためのシミュレーションファーストトレーニングフレームワークであるMTRを提案する。
ライブAPIに頼る代わりに、MTRはスキーマ検証されたシミュレートされた観察によって、完全なReActトレースから学習する。
提案手法は,タスク固有のOpenAI対応ツールインターフェースを生成するマルチエージェントアーキテクチャ,AutoAgentが構造化されたシンク-アクト-オブザーバシーケンスを生成する,ToolActorが現実的な応答をシミュレートする,といったマルチエージェントアーキテクチャによって実現されている。
Stage-1 Supervised Fine-Tuning (SFT) は完全な推論シーケンスから 'トレース文法' を教え、Stage-2 Group Relative Policy Optimization (GRPO) は正当性と内部整合性のバランスをとる複合トレース報酬で戦略を最適化する。
4つのマルチホップQAベンチマーク(HotpotQA, MuSiQue, 2WikiMultiHopQA, Bamboogle)を通じて、MTRは、ライブAPIシステムに競合するエクサクトマッチ(EM)スコアを獲得し、推論集約的なタスクに長けている。
関連論文リスト
- ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - AdaReasoner: Dynamic Tool Orchestration for Iterative Visual Reasoning [66.24374176797075]
textbfAdaReasonerは、ツール固有の、あるいは明示的な教師付き行動ではなく、一般的な推論スキルとしてツールの使用を学ぶマルチモーダルモデルのファミリーである。
AdaReasonerは、(i)スケーラブルなデータキュレーションパイプラインによって、長期にわたる多段階のツールインタラクションにモデルを公開し、(ii)ツール-GRPO、(ii)ツールの選択とシークエンシングをエンドツーエンドの成功に基づいて優先順位付けする強化学習アルゴリズム、(iii)ツールの使用を動的に規制する適応学習メカニズムによって実現されている。
論文 参考訳(メタデータ) (2026-01-26T16:04:43Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - PORTool: Tool-Use LLM Training with Rewarded Tree [11.154654446183455]
本稿では,ツール利用のLLMにおいて,正しい解答を得られる様々な軌跡を探索する強化学習法を提案する。
異なる軌跡をまたいだ共有ステップは同じ報酬を受け取り、同じフォークの下の異なるステップは異なる報酬を受け取る。
実験では17のツールを使用してユーザクエリに対処し、時間に敏感なトピックと時間に変化しないトピックの両方をカバーする。
論文 参考訳(メタデータ) (2025-10-29T23:28:53Z) - Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。
本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文 参考訳(メタデータ) (2025-09-16T09:22:21Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - ToolACE-R: Model-aware Iterative Training and Adaptive Refinement for Tool Learning [84.69651852838794]
ツール学習により、LLM(Large Language Models)は複雑なユーザタスクを解決するための外部ツールを活用することができる。
本稿では,ツール学習のための反復学習と適応的洗練の両方を含む新しいフレームワークであるToolACE-Rを提案する。
我々は、いくつかのベンチマークデータセットにわたる広範な実験を行い、ToolACE-Rが高度なAPIベースのモデルと比較して、競争力のあるパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-04-02T06:38:56Z) - StepTool: Enhancing Multi-Step Tool Usage in LLMs via Step-Grained Reinforcement Learning [44.99757728192871]
大きな言語モデル(LLM)は、複雑なタスクを解決するために外部ツールを効果的に活用するのに苦労する。
動的意思決定プロセスとしてモデリングツール学習を提案する。
StepToolは,段階的な強化学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-10T09:23:26Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。