論文の概要: ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
- arxiv url: http://arxiv.org/abs/2601.21558v2
- Date: Fri, 30 Jan 2026 10:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.325232
- Title: ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas
- Title(参考訳): ASTRA: エージェント軌道と強化アリーナの自動合成
- Authors: Xiaoyu Tian, Haotian Wang, Shuaiting Chen, Hao Zhou, Kaichi Yu, Yudian Zhang, Jade Ouyang, Junxi Yin, Jiong Chen, Baoyan Guo, Lei Zhang, Junjie Tao, Yuansheng Song, Ming Cui, Chengwei Liu,
- Abstract要約: ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 13.919124676472022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as tool-augmented agents for multi-step decision making, yet training robust tool-using agents remains challenging. Existing methods still require manual intervention, depend on non-verifiable simulated environments, rely exclusively on either supervised fine-tuning (SFT) or reinforcement learning (RL), and struggle with stable long-horizon, multi-turn learning. To address these challenges, we introduce ASTRA, a fully automated end-to-end framework for training tool-augmented language model agents via scalable data synthesis and verifiable reinforcement learning. ASTRA integrates two complementary components. First, a pipeline that leverages the static topology of tool-call graphs synthesizes diverse, structurally grounded trajectories, instilling broad and transferable tool-use competence. Second, an environment synthesis framework that captures the rich, compositional topology of human semantic reasoning converts decomposed question-answer traces into independent, code-executable, and rule-verifiable environments, enabling deterministic multi-turn RL. Based on this method, we develop a unified training methodology that integrates SFT with online RL using trajectory-level rewards to balance task completion and interaction efficiency. Experiments on multiple agentic tool-use benchmarks demonstrate that ASTRA-trained models achieve state-of-the-art performance at comparable scales, approaching closed-source systems while preserving core reasoning ability. We release the full pipelines, environments, and trained models at https://github.com/LianjiaTech/astra.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多段階意思決定のためのツール拡張エージェントとしてますます使われているが、堅牢なツール使用エージェントのトレーニングは依然として難しい。
既存の方法は、まだ手動による介入を必要としており、検証不可能な環境に依存し、教師付き微調整(SFT)または強化学習(RL)にのみ依存し、安定した長距離多ターン学習に苦慮している。
これらの課題に対処するために、スケーラブルなデータ合成と検証可能な強化学習を通じて、ツール拡張言語モデルエージェントをトレーニングするための、完全に自動化されたエンドツーエンドフレームワークであるASTRAを紹介した。
ASTRAは2つの補完的なコンポーネントを統合する。
まず、ツールコールグラフの静的トポロジを利用するパイプラインは、多様で構造的な軌道を合成し、広範かつ伝達可能なツール使用能力を注入する。
第二に、人間の意味推論のリッチで構成的なトポロジをキャプチャする環境合成フレームワークは、分解された質問応答トレースを独立性、コード実行性、ルール検証可能な環境に変換し、決定論的マルチターンRLを可能にする。
本手法により,SFTとオンラインRLを統合した統合学習手法を開発し,タスク完了とインタラクション効率のバランスをとる。
複数のエージェントツール使用ベンチマークの実験により、ASTRA訓練されたモデルは、コア推論能力を保ちながらクローズドソースシステムに近づきながら、同等のスケールで最先端のパフォーマンスを達成することが示された。
パイプライン、環境、トレーニングされたモデルをhttps://github.com/LianjiaTech/astra.comでリリースしています。
関連論文リスト
- Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text [48.25052564552558]
本稿では,テキストコーパスから多ターンツール利用トラジェクトリの生成と抽出を可能にするデータ合成パイプラインであるGEMを紹介する。
計算コストを削減するため,教師付き微調整により特別なトラジェクトリ合成器を訓練する。
GEM-32BはBFCL V3 Multi-turnベンチマークで16.5%改善した。
論文 参考訳(メタデータ) (2026-01-15T12:58:46Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - Code-in-the-Loop Forensics: Agentic Tool Use for Image Forgery Detection [59.04089915447622]
ForenAgentはインタラクティブなIFDフレームワークで、MLLMが検出対象に関するPythonベースの低レベルツールを自律的に生成、実行、洗練することができる。
人間の推論にインスパイアされた我々は、グローバルな認識、局所的な焦点、反復的探索、そして全体論的偏見を含む動的推論ループを設計する。
実験の結果,ForenAgent は IFD 課題に対する創発的なツール利用能力と反射的推論を示すことがわかった。
論文 参考訳(メタデータ) (2025-12-18T08:38:44Z) - ToolMind Technical Report: A Large-Scale, Reasoning-Enhanced Tool-Use Dataset [43.45582911794623]
我々は,160kの合成データインスタンスを備えた高品質なツールエージェントデータセットであるToolMindを紹介した。
我々は, 高精度なターンレベルのフィルタリングを用いて, 誤りや不適切なステップを除去する。
ToolMindで微調整されたモデルは、いくつかのベンチマークでベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-11-12T13:01:23Z) - FunReason-MT Technical Report: Overcoming the Complexity Barrier in Multi-Turn Function Calling [39.45732462111156]
本稿では,FunReason-MTを提案する。FunReason-MTは,実世界のマルチターンツール利用のための新しいデータ合成フレームワークである。
FunReason-MTは、環境-APIグラフ相互作用を用いて、マルチターンFCデータの複雑さ障壁を解決する。
FunReason-MT生成データに基づいて構築された4Bモデルは、同等サイズのモデル間で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-10-28T17:15:26Z) - Adaptive Tool Generation with Models as Tools and Reinforcement Learning [3.592245101862886]
MTRは、ツール強化推論のためのシミュレーションファーストのトレーニングフレームワークである。
スキーマ検証されたシミュレートされた観察で、完全なReActトレースから学習する。
MTRは、ライブAPIシステムと競合するエクサクトマッチ(EM)スコアを取得する。
論文 参考訳(メタデータ) (2025-10-08T09:48:50Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。