論文の概要: Beyond Quantity: Trajectory Diversity Scaling for Code Agents
- arxiv url: http://arxiv.org/abs/2602.03219v2
- Date: Mon, 09 Feb 2026 14:24:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 17:49:39.454641
- Title: Beyond Quantity: Trajectory Diversity Scaling for Code Agents
- Title(参考訳): 量を超える: コードエージェントのための軌道上の多様性のスケーリング
- Authors: Guhong Chen, Chenghao Sun, Cheng Fu, Qiyao Wang, Zhihong Huang, Chaopeng Wei, Guangxu Chen, Feiteng Fang, Ahmadreza Argha, Bing Zhao, Xander Xu, Qi Han, Hamid Alinejad-Rokny, Qiang Qu, Binhua Li, Shiwen Ni, Min Yang, Hu Wei, Yongbin Li,
- Abstract要約: Trajectory Diversity Scalingは、コードエージェントのためのデータ合成フレームワークである。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ロングテールシナリオを指向する適応的な進化メカニズムの4つの革新を統合しています。
- 参考スコア(独自算出の注目度): 51.71414642763219
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As code large language models (LLMs) evolve into tool-interactive agents via the Model Context Protocol (MCP), their generalization is increasingly limited by low-quality synthetic data and the diminishing returns of quantity scaling. Moreover, quantity-centric scaling exhibits an early bottleneck that underutilizes trajectory data. We propose TDScaling, a Trajectory Diversity Scaling-based data synthesis framework for code agents that scales performance through diversity rather than raw volume. Under a fixed training budget, increasing trajectory diversity yields larger gains than adding more trajectories, improving the performance-cost trade-off for agent training. TDScaling integrates four innovations: (1) a Business Cluster mechanism that captures real-service logical dependencies; (2) a blueprint-driven multi-agent paradigm that enforces trajectory coherence; (3) an adaptive evolution mechanism that steers synthesis toward long-tail scenarios using Domain Entropy, Reasoning Mode Entropy, and Cumulative Action Complexity to prevent mode collapse; and (4) a sandboxed code tool that mitigates catastrophic forgetting of intrinsic coding capabilities. Experiments on general tool-use benchmarks (BFCL, tau^2-Bench) and code agent tasks (RebenchT, CodeCI, BIRD) demonstrate a win-win outcome: TDScaling improves both tool-use generalization and inherent coding proficiency. We plan to release the full codebase and the synthesized dataset (including 30,000+ tool clusters) upon publication.
- Abstract(参考訳): コード大言語モデル (LLM) が Model Context Protocol (MCP) を介してツール間エージェントへと進化するにつれて、それらの一般化は低品質な合成データと量スケーリングのリターンの低下によってますます制限される。
さらに、量中心のスケーリングは、トラジェクトリデータを不活用する初期のボトルネックを示す。
本稿では,TDScalingを提案する。TDScalingは,生のボリュームではなく,多様性を通じてパフォーマンスをスケールするコードエージェントのための,トラジェクティブ・ダイバーシティ・スケーリングに基づくデータ合成フレームワークである。
一定の訓練予算の下では、軌道の多様性の増大は、より多くの軌道を追加するよりも大きな利得をもたらし、エージェントトレーニングのパフォーマンスコストのトレードオフを改善する。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ドメインのエントロピー、推論モードのエントロピー、および累積アクションの複雑さによって、モード崩壊を防止し、(4)固有のコーディング機能の破滅的な忘れを緩和するサンドボックスコードツール、の4つのイノベーションを統合している。
一般的なツール利用ベンチマーク(BFCL, tau^2-Bench)とコードエージェントタスク(RebenchT, CodeCI, BIRD)の実験では、勝利が示されている。
完全なコードベースと合成データセット(30,000以上のツールクラスタを含む)を公開時にリリースする予定です。
関連論文リスト
- AgentArk: Distilling Multi-Agent Intelligence into a Single LLM Agent [57.10083973844841]
AgentArkは、マルチエージェントダイナミクスを単一のモデルの重みに蒸留する新しいフレームワークである。
各種モデル,タスク,スケーリング,シナリオの3つの階層的蒸留戦略について検討する。
シミュレーションからトレーニングへ計算の負担をシフトさせることで、蒸留されたモデルは、複数のエージェントの強い推論と自己補正性能を示しながら、一つのエージェントの効率を保ちます。
論文 参考訳(メタデータ) (2026-02-03T19:18:28Z) - ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - Towards Efficient Agents: A Co-Design of Inference Architecture and System [66.59916327634639]
本稿では,エージェントアクセラレーションのための統合フレームワークであるAgentInferを提案する。
問題をAgentCollab、AgentSched、AgentSAM、AgentCompressの4つの相乗的コンポーネントに分解する。
BrowseComp-zhとDeepDiverベンチマークの実験では、これらの手法の相乗的コラボレーションを通じて、AgentInferは非効率なトークン消費を50%以上削減することを示した。
論文 参考訳(メタデータ) (2025-12-20T12:06:13Z) - Scaling LLM Speculative Decoding: Non-Autoregressive Forecasting in Large-Batch Scenarios [76.85739138203014]
本稿では,一方向および注目メカニズムを加速する新しいアーキテクチャであるSpecFormerを紹介する。
また,SpecFormerはトレーニング要求の低減と計算コストの削減を実現している。
論文 参考訳(メタデータ) (2025-11-25T14:20:08Z) - FELA: A Multi-Agent Evolutionary System for Feature Engineering of Industrial Event Log Data [7.129004248608012]
イベントログデータは、現代のデジタルサービスにとって最も価値のある資産の1つである。
AutoMLや遺伝的手法のような既存の機能エンジニアリングアプローチは、しばしば限定的な説明責任に悩まされる。
複雑なイベントログデータから有意義かつ高性能な特徴を自律的に抽出するマルチエージェント進化システムFELAを提案する。
論文 参考訳(メタデータ) (2025-10-29T06:57:32Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - GENIAL: Generative Design Space Exploration via Network Inversion for Low Power Algorithmic Logic Units [4.148469311862123]
本稿では,算術単位の自動生成と最適化のための機械学習ベースのフレームワークを提案する。
ジェネリックの中核はトランスフォーマーベースのサロゲートモデルであり、2つの段階で訓練されている。
大規模なデータセットの実験では、ジェネリックは他の方法よりも一貫してサンプリング効率が高いことが示されている。
論文 参考訳(メタデータ) (2025-07-25T06:34:59Z) - RMoA: Optimizing Mixture-of-Agents through Diversity Maximization and Residual Compensation [6.364685086217188]
本稿では,Residual Mixture-of-Agents(RMoA)を提案する。
RMoAは、アライメント、数学的推論、コード生成、マルチタスク理解のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-30T10:23:11Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。