論文の概要: Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs
- arxiv url: http://arxiv.org/abs/2604.00824v1
- Date: Wed, 01 Apr 2026 12:33:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.986358
- Title: Yet Even Less Is Even Better For Agentic, Reasoning, and Coding LLMs
- Title(参考訳): しかし、エージェント、推論、コーディングのLLMではさらに改善される
- Authors: Yang Ye, Jingyuan Tan, Tianyue Jiang, Ruizhe Ye, Qiankun He, Jiarui Yang, Jian Dong, Sicong Liang, Chongjian Yue, Peibai Xu, Lufan Lu, Taotao Qian, Junbao Hu, Yuechan Hao, Ensheng Shi, Qi Zhang, Yi Hao, Na Fan, Xin Tan, Shuai Yao, Zhiwei Shen, Zongchen Li, Yanlin Wang, Chong Chen, Yuchi Ma,
- Abstract要約: 効果的なソフトウェアエンジニアリングエージェントの訓練には、大量のタスク固有の軌道が必要である。
より少ないが高品質な訓練軌道で優れたエージェント能力を実現するエンドツーエンドのトレーニングフレームワークを提案する。
- 参考スコア(独自算出の注目度): 29.11318811466135
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training effective software engineering agents requires large volumes of task-specific trajectories, incurring substantial data construction costs. Inspired by the "Less-Is-More" hypothesis in mathematical reasoning, we investigate its extension to agentic scenarios and propose an end-to-end training framework that achieves superior agentic capabilities with fewer but higher-quality training trajectories. This is achieved via STITCH (Sliding-memory Trajectory Inference and Task Chunking Heuristic), a coarse-to-fine mechanism that filters low-value noise and retains decision-critical tokens to maximize training signal quality. We conduct experiments across multiple agent frameworks (e.g., mini-SWE-agent, MSWE-agent), model scales (30B to 355B), and multilingual settings (Python, Java, and ArkTS). On SWE-bench Verified, models trained with STITCH achieve up to 63.16% relative improvement over base models. On Multi-SWE-bench (Java), MiniMax-M2.5-STITCH achieves 43.75% with our CodeArts Agent scaffold (+16.67%). On HarmonyOS (ArkTS), GLM-4.7-STITCH improves the compilation pass rate to 61.31% (+43.34%) with less than 1K training trajectories. Our results confirm that the "Less-Is-More" paradigm generalizes effectively to complex agentic tasks across diverse languages and model scales.
- Abstract(参考訳): 効果的なソフトウェアエンジニアリングエージェントの訓練には、大量のタスク固有の軌道が必要で、かなりのデータ構築コストがかかる。
数学的推論における"Less-Is-More"仮説にインスパイアされ、エージェントシナリオへの拡張を調査し、より少ないが高品質なトレーニング軌道で優れたエージェント能力を実現するエンドツーエンドのトレーニングフレームワークを提案する。
STITCH(Sliding-Memory Trajectory Inference and Task Chunking Heuristic)は、低値ノイズをフィルタし、信号品質を最大化するために決定クリティカルトークンを保持する粗い微細化機構である。
複数のエージェントフレームワーク(例: mini-SWE-agent, MSWE-agent)、モデルスケール(30Bから355B)、マルチ言語設定(Python、Java、ArkTS)で実験を行う。
SWE-bench Verifiedでは、STITCHで訓練されたモデルはベースモデルよりも63.16%向上した。
Multi-SWE-bench (Java) では,MiniMax-M2.5-STITCH が CodeArts Agent の足場 (+16.67%) で43.75% を達成した。
HarmonyOS(ArkTS)では、GLM-4.7-STITCHはコンパイルパスレートを61.31%(+43.34%)に改善し、1Kのトレーニングトラジェクトリ未満である。
提案手法は,多様な言語やモデルスケールにまたがる複雑なエージェントタスクを効果的に一般化する。
関連論文リスト
- SWE-RM: Execution-free Feedback For Software Engineering Agents [61.86380395896069]
実行ベースフィードバックは、テストタイムスケーリング(TTS)と強化学習(RL)を通じて、コーディングエージェントの開発に広く利用されている。
対照的に、報酬モデルによる実行不要なフィードバックは、単体テストケースに依存することなく、よりきめ細かい信号を提供することができる。
SWE-RMは,30Bの合計パラメータと3Bのアクティベートされた3Bの混合実験アーキテクチャを採用した,正確で堅牢な報酬モデルである。
論文 参考訳(メタデータ) (2025-12-26T08:26:18Z) - Kimi-Dev: Agentless Training as Skill Prior for SWE-Agents [43.20918899874477]
大規模言語モデル(LLM)は、ソフトウェア工学(SWE)にますます適用されつつある
我々はまず、Agentlessトレーニングレシピをキュレートし、SWE-bench Verified上で60.4%を達成したオープンソースのSWE LLMであるKim-Devを提示する。
5kの公用軌道にSFTを付加することで、Kim-DevはClaude 3.5 Sonnetと同等の48.6%のpass@1にSWE-Agentsをパワーアップする。
論文 参考訳(メタデータ) (2025-09-27T01:49:13Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。