論文の概要: Adaptive Tool Generation with Models as Tools and Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.06825v1
- Date: Wed, 08 Oct 2025 09:48:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.400341
- Title: Adaptive Tool Generation with Models as Tools and Reinforcement Learning
- Title(参考訳): モデルを用いた適応ツール生成と強化学習
- Authors: Chenpeng Wang, Xiaojie Cheng, Chunye Wang, Linfeng Yang, Lei Zhang,
- Abstract要約: MTRは、ツール強化推論のためのシミュレーションファーストのトレーニングフレームワークである。
スキーマ検証されたシミュレートされた観察で、完全なReActトレースから学習する。
MTRは、ライブAPIシステムと競合するエクサクトマッチ(EM)スコアを取得する。
- 参考スコア(独自算出の注目度): 3.592245101862886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-augmented language models have demonstrated strong capabilities, but their reliance on live API access creates scalability and reliability challenges during training and deployment. We propose MTR, a simulation-first training framework for tool-augmented reasoning. Instead of relying on live APIs, MTR learns from complete ReAct traces with schema-validated, simulated observations. Our approach operates through a multi-agent architecture where a ToolMaker generates task-specific, OpenAI-compatible tool interfaces, an AutoAgent produces structured think-act-observe sequences, and a ToolActor simulates realistic responses. Training proceeds in two stages: Stage-1 Supervised Fine-Tuning (SFT) teaches 'trace grammar' from complete reasoning sequences; Stage-2 Group Relative Policy Optimization (GRPO) optimizes strategy with a composite trace reward that balances answer correctness and internal consistency. Across four multi-hop QA benchmarks (HotpotQA, MuSiQue, 2WikiMultiHopQA, Bamboogle), MTR attains competitive Exact Match (EM) scores to live-API systems and excels on reasoning-intensive tasks, suggesting that effective tool reasoning can be learned from structured traces without live interactions.
- Abstract(参考訳): ツール拡張された言語モデルは強力な機能を示しているが、ライブAPIアクセスへの依存は、トレーニングやデプロイメントにおいてスケーラビリティと信頼性の課題を生み出している。
ツール強化推論のためのシミュレーションファーストトレーニングフレームワークであるMTRを提案する。
ライブAPIに頼る代わりに、MTRはスキーマ検証されたシミュレートされた観察によって、完全なReActトレースから学習する。
提案手法は,タスク固有のOpenAI対応ツールインターフェースを生成するマルチエージェントアーキテクチャ,AutoAgentが構造化されたシンク-アクト-オブザーバシーケンスを生成する,ToolActorが現実的な応答をシミュレートする,といったマルチエージェントアーキテクチャによって実現されている。
Stage-1 Supervised Fine-Tuning (SFT) は完全な推論シーケンスから 'トレース文法' を教え、Stage-2 Group Relative Policy Optimization (GRPO) は正当性と内部整合性のバランスをとる複合トレース報酬で戦略を最適化する。
4つのマルチホップQAベンチマーク(HotpotQA, MuSiQue, 2WikiMultiHopQA, Bamboogle)を通じて、MTRは、ライブAPIシステムに競合するエクサクトマッチ(EM)スコアを獲得し、推論集約的なタスクに長けている。
関連論文リスト
- VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - StepTool: Enhancing Multi-Step Tool Usage in LLMs via Step-Grained Reinforcement Learning [44.99757728192871]
大きな言語モデル(LLM)は、複雑なタスクを解決するために外部ツールを効果的に活用するのに苦労する。
動的意思決定プロセスとしてモデリングツール学習を提案する。
StepToolは,段階的な強化学習フレームワークである。
論文 参考訳(メタデータ) (2024-10-10T09:23:26Z) - MetaTool: Facilitating Large Language Models to Master Tools with Meta-task Augmentation [25.360660222418183]
再利用可能なツールセットにまたがって一般化するために設計された,新しいツール学習手法であるMetaToolを紹介する。
メタタスクデータをタスク指向トレーニングに組み込むことで,オープンソースの大規模言語モデルの性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-07-15T10:15:41Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。