論文の概要: GTM: Simulating the World of Tools for AI Agents
- arxiv url: http://arxiv.org/abs/2512.04535v2
- Date: Fri, 05 Dec 2025 06:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.730375
- Title: GTM: Simulating the World of Tools for AI Agents
- Title(参考訳): GTM:AIエージェントのためのツールの世界をシミュレート
- Authors: Zhenzhen Ren, Xinpeng Zhang, Zhenxing Qian, Yan Gao, Yu Shi, Shuxin Zheng, Jiyan He,
- Abstract要約: 本稿では,汎用ツールシミュレータとして機能することを学ぶツールシミュレータであるGeneralist Tool Model (GTM)を紹介する。
プロンプトレベルの設定だけで、GTMは入力引数とともにツール機能にアクセスし、実際のツール実行を忠実に模倣する出力を生成する。
我々の研究は、GTMを将来のAIエージェント開発の基礎コンポーネントとして確立し、ツール強化システムの効率的かつスケーラブルなトレーニングを可能にした。
- 参考スコア(独自算出の注目度): 40.54510130488837
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The integration of external tools is pivotal for empowering Large Language Model (LLM) agents with real-world capabilities. However, training these agents through direct, continuous interaction with diverse tools is often prohibitively expensive, slow, and introduces additional development and maintenance overhead. To address this challenge, we introduce the Generalist Tool Model (GTM), a 1.5-billion-parameter model that learns to act as a universal tool simulator. With only prompt-level configuration, GTM accesses tool functionalities along with input arguments and generates outputs that faithfully mimic real tool execution, providing a fast and cost-effective solution that eliminates development overhead. To build GTM, we propose the Context-Aware Response Generation (CARG) pipeline, which synthesizes comprehensive training data covering over 20,000 tools across 300 domains including physics, medicine, robotics, and finance. Through this pipeline, GTM learns to produce not only syntactically correct outputs but also logically coherent and contextually appropriate responses. Experiments demonstrate that GTM produces high-quality outputs with strong consistency and reliability. Besides when used in real reinforcement learning scenarios for agent training, GTM exhibits significantly faster simulation speed compared to real tools while maintaining comparable output quality, along with remarkable generalization and domain adaptability. Our results establish GTM as a foundational component for developing future AI agents, enabling efficient and scalable training of tool-augmented systems.
- Abstract(参考訳): 外部ツールの統合は、Large Language Model (LLM)エージェントを現実世界の能力で強化するために重要である。
しかし、様々なツールと直接的かつ継続的な対話を通じてエージェントを訓練することは、しばしば非常に高価で遅く、追加の開発とメンテナンスのオーバーヘッドをもたらす。
この課題に対処するために,汎用ツールシミュレータとして機能することを学ぶ1.5ビリオンパラメータモデルであるGeneralist Tool Model (GTM)を導入する。
プロンプトレベルの設定だけで、GTMは入力引数とともにツール機能にアクセスし、実際のツール実行を忠実に模倣する出力を生成し、開発オーバーヘッドをなくす高速で費用対効果の高いソリューションを提供する。
GTMを構築するために、我々は、物理、医学、ロボティクス、ファイナンスを含む300の領域にわたる20,000以上のツールをカバーする包括的なトレーニングデータを合成するContext-Aware Response Generation (CARG)パイプラインを提案する。
このパイプラインを通じて、GTMは構文的に正しい出力を生成するだけでなく、論理的に一貫性があり、文脈的に適切な応答を生成することを学ぶ。
実験により、GTMは高い一貫性と信頼性を持つ高品質な出力を生成することが示された。
エージェントトレーニングの実際の強化学習シナリオで使用されることに加えて、GTMは実際のツールよりもはるかに高速なシミュレーション速度を示しながら、優れた一般化とドメイン適応性を維持している。
我々の研究は、GTMを将来のAIエージェント開発の基礎コンポーネントとして確立し、ツール強化システムの効率的かつスケーラブルなトレーニングを可能にした。
関連論文リスト
- Adaptive Tool Generation with Models as Tools and Reinforcement Learning [3.592245101862886]
MTRは、ツール強化推論のためのシミュレーションファーストのトレーニングフレームワークである。
スキーマ検証されたシミュレートされた観察で、完全なReActトレースから学習する。
MTRは、ライブAPIシステムと競合するエクサクトマッチ(EM)スコアを取得する。
論文 参考訳(メタデータ) (2025-10-08T09:48:50Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - AutoTIR: Autonomous Tools Integrated Reasoning via Reinforcement Learning [17.086082843274003]
大言語モデル(LLM)は、強力な大共振モデル(LRM)へと進化する
Tool-Integrated Reasoning (TIR)は、外部ツールを組み込むことで、その機能をさらに拡張する。
ツールを適応的に選択する人間の能力に触発されて,強化学習フレームワークであるAutoTIRを紹介した。
論文 参考訳(メタデータ) (2025-07-29T14:12:28Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。