論文の概要: daVinci-Dev: Agent-native Mid-training for Software Engineering
- arxiv url: http://arxiv.org/abs/2601.18418v1
- Date: Mon, 26 Jan 2026 12:20:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.817495
- Title: daVinci-Dev: Agent-native Mid-training for Software Engineering
- Title(参考訳): daVinci-Dev: ソフトウェアエンジニアリングのためのエージェントネイティブのミッドトレーニング
- Authors: Ji Zeng, Dayuan Fu, Tiantian Mi, Yumin Zhuang, Yaxing Huang, Xuefeng Li, Lyumanshan Ye, Muhang Xie, Qishuo Hua, Zhen Huang, Mohan Jiang, Hanning Wang, Jifan Lin, Yang Xiao, Jie Sun, Yunze Wu, Pengfei Liu,
- Abstract要約: 本稿では,エージェント・ミドルトレーニングの体系的な研究を行い,大規模エージェント開発のためのデータ合成の原則と訓練方法を確立する。
私たちは、トレーニング後の2つの設定の下で、以前のオープンソースエンジニアリングのミッドトレーニングレシピであるKimi-Devよりも、整列ベースモデルとエージェントスキャフォールドの方が優れていることを実証します。
- 参考スコア(独自算出の注目度): 22.845876048950483
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the frontier of Large Language Model (LLM) capabilities has shifted from single-turn code generation to agentic software engineering-a paradigm where models autonomously navigate, edit, and test complex repositories. While post-training methods have become the de facto approach for code agents, **agentic mid-training**-mid-training (MT) on large-scale data that mirrors authentic agentic workflows-remains critically underexplored due to substantial resource requirements, despite offering a more scalable path to instilling foundational agentic behaviors than relying solely on expensive reinforcement learning. A central challenge in realizing effective agentic mid-training is the distribution mismatch between static training data and the dynamic, feedback-rich environment of real development. To address this, we present a systematic study of agentic mid-training, establishing both the data synthesis principles and training methodology for effective agent development at scale. Central to our approach is **agent-native data**-supervision comprising two complementary types of trajectories: **contextually-native trajectories** that preserve the complete information flow an agent experiences, offering broad coverage and diversity; and **environmentally-native trajectories** collected from executable repositories where observations stem from actual tool invocations and test executions, providing depth and interaction authenticity. We verify the model's agentic capabilities on `SWE-Bench Verified`. We demonstrate our superiority over the previous open software engineering mid-training recipe `Kimi-Dev` under two post-training settings with an aligned base model and agentic scaffold, while using less than half mid-training tokens (73.1B). Besides relative advantage, our best performing 32B and 72B models achieve **56.1%** and **58.5%** resolution rates, respectively, which are ...
- Abstract(参考訳): 最近、LLM(Large Language Model)機能の最前線は、単一ターンコード生成からエージェントソフトウェアエンジニアリングへと移行した。
ポストトレーニングメソッドはコードエージェントのデファクトアプローチになっているが、**エージェントのワークフローを反映した大規模なデータに基づく**中間トレーニング(MT)は、高価な強化学習にのみ依存するのではなく、基礎的なエージェントの振る舞いを取り入れるためのよりスケーラブルなパスを提供するにもかかわらず、かなりのリソース要件のため、極めて過度に調査されている。
効果的なエージェントミドルトレーニングを実現する上での課題は、静的トレーニングデータと、実際の開発における動的でフィードバックに富んだ環境との間の分布ミスマッチである。
そこで本研究では,エージェント・ミドルトレーニングの体系的な研究を行い,大規模エージェント開発のためのデータ合成原理とトレーニング手法の確立について述べる。
当社のアプローチの中心にあるのは,2つの相補的なタイプのトラジェクトリで構成される**agent-native Data*-supervisionです。 エージェントが経験する完全な情報フローを保存し,広範なカバレッジと多様性を提供する**contextually-native trajectories** と,実際のツール呼び出しとテスト実行から観測結果が得られた実行可能なリポジトリから収集された**環境的にネイティブなトラジェクトリ** と,深度とインタラクションの信頼性を提供する**。
モデルのエージェント機能を `SWE-Bench Verified` で検証する。
トレーニング中段階のレシピであるKimi-Devよりも、整列ベースモデルとエージェント足場を備えた2つのトレーニング後設定において、半分以下のトレーニング中段階のトークン(73.1B)を使用しながら、優位性を実証する。
相対的な優位性に加えて、我々の最高の32Bモデルと72Bモデルは、それぞれ**56.1%*と**58.5%*の分解率を達成する。
関連論文リスト
- Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback [51.22403664895878]
Agent2Worldは、強力な推論時ワールドモデル生成を実現するツール拡張マルチエージェントフレームワークである。
また、マルチエージェントフィードバックの生成を基盤にすることで、教師付き微調整のためのデータエンジンとしても機能する。
論文 参考訳(メタデータ) (2025-12-26T18:54:14Z) - SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - AgentOhana: Design Unified Data and Training Pipeline for Effective Agent Learning [98.26836657967162]
textbfAgentOhanaは、さまざまなシナリオにまたがって、異なる環境からエージェントのトラジェクトリを集約する。
AIエージェント用に調整された大規模なアクションモデルである textbfxLAM-v0.1 は、さまざまなベンチマークで例外的なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-02-23T18:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。