論文の概要: Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces
- arxiv url: http://arxiv.org/abs/2603.06713v1
- Date: Thu, 05 Mar 2026 20:29:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.900604
- Title: Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces
- Title(参考訳): エージェント能力のスケーリング - コンテキストではなく - 大規模ツールスペースの効率的な強化ファインタニング
- Authors: Karan Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah,
- Abstract要約: ATLASは、小さな言語モデルが大規模ツールスペース環境で効果的に動作できるようにする強化微調整フレームワークである。
まず、文脈制御と実行構造を学習可能な決定として扱う。
第2に,タスク成功を構造化されたタスク整合基準に分解する強化微調整を提案する。
- 参考スコア(独自算出の注目度): 5.870572929943109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic systems operating over large tool ecosystems must plan and execute long-horizon workflows under weak or non-verifiable supervision. While frontier models mitigate these challenges through scale and large context budgets, small language models (SLMs) remain brittle: eager tool loading saturates context, execution errors compound over time, and sparse rewards limit learning. We introduce ATLAS, a reinforcement finetuning framework that enables SLMs to operate effectively in large-scale toolspace environments by learning how to acquire context and how to execute actions. Our approach makes two key contributions. First, we treat context control and execution structure as learnable decisions, combining iterative tool loading with programmatic tool orchestration to bound context growth and stabilize long-horizon trajectories. Second, we propose rubric-based reinforcement finetuning, which decomposes task success into structured, task-aligned criteria and enables scalable training using small judge models. Across MCP benchmarks, these design choices yield large and consistent gains over generic RL baselines, allowing a 4B SLM to approach frontier-agent performance under far tighter parameter and context budgets.
- Abstract(参考訳): 大きなツールエコシステム上で動作するエージェントシステムは、弱いあるいは検証不可能な監視の下で、長期のワークフローを計画し実行する必要があります。
フロンティアモデルは、規模や大きなコンテキスト予算を通じてこれらの課題を緩和しますが、小さな言語モデル(SLM)は不安定なままです。
我々は,SLMがコンテキストの取得方法やアクションの実行方法を学ぶことで,大規模ツールスペース環境で効果的に動作できるようにする強化微調整フレームワークであるATLASを紹介した。
私たちのアプローチには2つの重要な貢献があります。
まず、コンテキスト制御と実行構造を学習可能な決定として扱い、反復的なツールローディングとプログラムツールオーケストレーションを組み合わせることで、コンテキスト成長を束縛し、長い水平軌道を安定化する。
第2に,タスク成功を構造化されたタスク整合基準に分解し,小さな判断モデルを用いたスケーラブルなトレーニングを可能にするルーリック型強化微調整を提案する。
MCPベンチマーク全体で、これらの設計選択は一般的なRLベースラインよりも大きく一貫した利得をもたらし、4B SLMはより厳密なパラメータとコンテキスト予算の下でフロンティアエージェントのパフォーマンスにアプローチすることができる。
関連論文リスト
- MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - ToolSelf: Unifying Task Execution and Self-Reconfiguration via Tool-Driven Intrinsic Adaptation [60.25542764389203]
LLM(Large Language Models)を利用したエージェントシステムは、複雑で長期のタスクに対処する上で、顕著な可能性を示している。
既存のアプローチでは、手動のオーケストレーションやランタイムベースのパッチを頼りにしており、一般化の貧弱さと最適化の断片化に悩まされることが多い。
ツール駆動の自己修正を可能にする新しいパラダイムであるToolSelfを提案する。
論文 参考訳(メタデータ) (2026-02-08T09:27:18Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。
Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文 参考訳(メタデータ) (2025-12-31T04:25:11Z) - GAP: Graph-Based Agent Planning with Parallel Tool Use and Reinforcement Learning [20.75113227786218]
グラフベースのエージェント計画(GAP)は、グラフベースの計画を通じてタスク間の依存関係を明示的にモデル化する新しいフレームワークである。
我々のアプローチは、複雑なタスクを依存性を意識したサブタスクグラフに分解する基礎モデルを訓練する。
この依存性を意識したオーケストレーションは、実行効率とタスクの正確性の両方で大幅に改善される。
論文 参考訳(メタデータ) (2025-10-29T09:35:55Z) - Scaling Long-Horizon LLM Agent via Context-Folding [46.685552398338295]
エージェントが作業コンテキストを積極的に管理することを可能にするフレームワークであるContext-Foldingを紹介します。
エージェントは、サブトラックに手続き的に分岐してサブタスクを処理し、完了時に折り畳み、結果の簡潔な要約を保持しながら中間ステップを崩壊させる。
論文 参考訳(メタデータ) (2025-10-13T22:00:58Z) - Scaling LLM Multi-turn RL with End-to-end Summarization-based Context Management [19.980762483472354]
要約に基づくコンテキスト管理をトレーニングに導入する。
UnderlineSUmmarization 拡張 UnderlinePolicy UnderlineOptimization (textttSUPO) でこのフレームワークをインスタンス化する。
本研究は,RLエージェントを一定の文脈長制限を超えて訓練するための原則的かつスケーラブルな手法として,要約に基づくコンテキスト管理を確立した。
論文 参考訳(メタデータ) (2025-10-08T07:29:22Z) - Structured Agent Distillation for Large Language Model [56.38279355868093]
本研究では,LLMをベースとした大規模エージェントを小さな学生モデルに圧縮するフレームワークであるStructured Agent Distillationを提案する。
提案手法は, [REASON] と [ACT] にトラジェクトリを分割し, 各コンポーネントを教師の行動に合わせるためにセグメント特異的な損失を適用した。
ALFWorld、HotPotQA-ReAct、WebShopの実験は、我々のアプローチがトークンレベルと模倣学習のベースラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-20T02:01:55Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。