論文の概要: KAT-Coder Technical Report
- arxiv url: http://arxiv.org/abs/2510.18779v1
- Date: Tue, 21 Oct 2025 16:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.922497
- Title: KAT-Coder Technical Report
- Title(参考訳): KATコーダ技術報告
- Authors: Zizheng Zhan, Ken Deng, Xiaojiang Zhang, Jinghui Wang, Huaixi Tang, Zhiyi Lai, Haoyang Huang, Wen Xiang, Kun Wu, Wenhao Zhuang, Minglei Zhang, Shaojie Wang, Shangpeng Yan, Kepeng Lei, Zongxian Feng, Huiming Wang, Zheng Lin, Mengtong Li, Mengfei Xie, Yinghan Cui, Xuxing Chen, Chao Wang, Weihao Li, Wenqiang Zhu, Jiarong Zhang, Jingxuan Xu, Songwei Yu, Yifan Yao, Xinping Lei, Han Li, Junqi Xiong, Zuchen Gao, Dailin Li, Haimo Li, Jiaheng Liu, Yuqun Zhang, Junyi Peng, Haotian Zhang, Bin Chen,
- Abstract要約: KAT-Coderは、中期訓練、監視ファインチューニング(SFT)、強化ファインチューニング(RFT)、強化デプロイ適応(Reinforcement-to-Deployment Adaptation)を含む多段階のカリキュラムを通じて訓練された大規模なエージェントコードモデルである。
これらの段階により、KAT-Coderは堅牢なツール使用信頼性、命令アライメント、長いコンテキスト推論を実現することができる。
- 参考スコア(独自算出の注目度): 48.314569284539026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled progress in agentic coding, where models autonomously reason, plan, and act within interactive software development workflows. However, bridging the gap between static text-based training and dynamic real-world agentic execution remains a core challenge. In this technical report, we present KAT-Coder, a large-scale agentic code model trained through a multi-stage curriculum encompassing Mid-Term Training, Supervised Fine-Tuning (SFT), Reinforcement Fine-Tuning (RFT), and Reinforcement-to-Deployment Adaptation. The Mid-Term stage enhances reasoning, planning, and reflection capabilities through a corpus of real software engineering data and synthetic agentic interactions. The SFT stage constructs a million-sample dataset balancing twenty programming languages, ten development contexts, and ten task archetypes. The RFT stage introduces a novel multi-ground-truth reward formulation for stable and sample-efficient policy optimization. Finally, the Reinforcement-to-Deployment phase adapts the model to production-grade IDE environments using Error-Masked SFT and Tree-Structured Trajectory Training. In summary, these stages enable KAT-Coder to achieve robust tool-use reliability, instruction alignment, and long-context reasoning, forming a deployable foundation for real-world intelligent coding agents. Our KAT series 32B model, KAT-Dev, has been open-sourced on https://huggingface.co/Kwaipilot/KAT-Dev.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、対話型ソフトウェア開発ワークフローにおいて、モデルが自律的に推論、計画、行動を行うエージェントコーディングの進歩を可能にしている。
しかし、静的テキストベースのトレーニングと動的実世界のエージェント実行のギャップを埋めることは、依然として重要な課題である。
本稿では,中等教育,監視ファインチューニング (SFT) ,強化ファインチューニング (RFT) ,強化デプロイ適応 (Reinforcement-to-Deployment Adaptation) を含む多段階カリキュラムを通じて訓練された大規模エージェントコードモデルであるKAT-Coderを紹介する。
中期段階は、実際のソフトウェアエンジニアリングデータと合成エージェントインタラクションのコーパスを通じて、推論、計画、リフレクション機能を強化する。
SFTステージは、20のプログラミング言語、10の開発コンテキスト、10のタスクアーチタイプをバランスよく、100万サンプルのデータセットを構築する。
RFTステージでは、安定かつサンプル効率の政策最適化のための新しいマルチグラウンド・トゥルース報酬の定式化が導入された。
最後に、Reinforcement-to-Deploymentフェーズは、Error-Masked SFTとTree-Structured Trajectory Trainingを使用して、本番レベルのIDE環境にモデルを適応させる。
まとめると、これらのステージは、KAT-Coderが堅牢なツール使用信頼性、命令アライメント、長期コンテキスト推論を実現し、現実世界のインテリジェントコーディングエージェントのためのデプロイ可能な基盤を形成する。
KATシリーズ32BモデルであるKAT-Devはhttps://huggingface.co/Kwaipilot/KAT-Devでオープンソース化されました。
関連論文リスト
- ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training [1.4709455282157278]
Auto-Train for Code Translation (ACT)は、オープンソースのLarge Language Models (LLM)を社内で微調整することで、コード翻訳機能を改善することを目的としている。
ACTの自動パイプラインはこれらのモデルの性能を大幅に向上させ、オープンソースアクセシビリティとクローズドソースソリューションのパフォーマンスのギャップを狭める。
我々の結果は、ACTがオープンソースモデルの有効性を一貫して強化し、企業や開発者が安全で信頼性の高い代替手段を提供することを示した。
論文 参考訳(メタデータ) (2025-07-22T11:35:35Z) - SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development [40.48114055515786]
SWE-Devは、現実世界の機能開発タスクで自律的なコーディングシステムを評価し、訓練するために設計された最初の大規模データセットである。
このコレクションは、Supervised Fine-Tuning(SFT)のための高品質なデータを提供するが、実行可能単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
論文 参考訳(メタデータ) (2025-05-22T17:51:49Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。
これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文 参考訳(メタデータ) (2023-07-16T02:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。