論文の概要: KAT-Coder-V2 Technical Report
- arxiv url: http://arxiv.org/abs/2603.27703v1
- Date: Sun, 29 Mar 2026 14:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.079929
- Title: KAT-Coder-V2 Technical Report
- Title(参考訳): KAT-Coder-V2技術報告
- Authors: Fengxiang Li, Han Zhang, Haoyang Huang, Jinghui Wang, Jinhua Hao, Kun Yuan, Mengtong Li, Minglei Zhang, Pengcheng Xu, Wenhao Zhuang, Yizhen Shao, Zongxian Feng, Can Tang, Chao Wang, Chengxiao Tong, Fan Yang, Gang Xiong, Haixuan Gao, Han Gao, Hao Wang, Haochen Liu, Hongliang Sun, Jiabao Li, Jingwen Chang, Jun Du, Junyi Peng, Leizhen Cui, Meimei Jing, Mingqi Wu, Shangpeng Yan, Shaotong Qi, Suzhe Xu, Wenxuan Zhao, Xianda Sun, Xuan Xie, Yanbo Wang, Yao Xia, Yinghan Cui, Yingpeng Chen, Yong Wang, Yuze Shi, Zhiwei Shen, Ziyu Wang, Ming Sun, Lin Ye, Bin Chen,
- Abstract要約: 本稿では,KwaiKATチームが開発したエージェントコーディングモデルであるKAT-Coder-V2を紹介する。
KAT-Coder-V2は、エージェントコーディングを5つの専門ドメインに分解する"Specialize-then-Unify"パラダイムを採用している。
我々は、数万の同時サンドボックスインスタンスを持続するモジュラーインフラストラクチャであるKwaiEnvを開発した。
- 参考スコア(独自算出の注目度): 45.53423367042574
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present KAT-Coder-V2, an agentic coding model developed by the KwaiKAT team at Kuaishou. KAT-Coder-V2 adopts a "Specialize-then-Unify" paradigm that decomposes agentic coding into five expert domains - SWE, WebCoding, Terminal, WebSearch, and General - each undergoing independent supervised fine-tuning and reinforcement learning, before being consolidated into a single model via on-policy distillation. We develop KwaiEnv, a modular infrastructure sustaining tens of thousands of concurrent sandbox instances, and scale RL training along task complexity, intent alignment, and scaffold generalization. We further propose MCLA for stabilizing MoE RL training and Tree Training for eliminating redundant computation over tree-structured trajectories with up to 6.2x speedup. KAT-Coder-V2 achieves 79.6% on SWE-bench Verified (vs. Claude Opus 4.6 at 80.8%), 88.7 on PinchBench (surpassing GLM-5 and MiniMax M2.7), ranks first across all three frontend aesthetics scenarios, and maintains strong generalist scores on Terminal-Bench Hard (46.8) and tau^2-Bench (93.9). Our model is publicly available at https://streamlake.com/product/kat-coder.
- Abstract(参考訳): 本稿では,KwaiKATチームが開発したエージェントコーディングモデルであるKAT-Coder-V2を紹介する。
KAT-Coder-V2は、エージェントコーディングを5つの専門ドメイン(SWE、WebCoding、Terminal、WebSearch、General)に分解する"Specialize-then-Unify"パラダイムを採用しています。
KwaiEnvは、数万の同時サンドボックスインスタンスを持続するモジュラーインフラストラクチャで、タスクの複雑さ、インテントアライメント、足場一般化に沿ってRLトレーニングをスケールします。
さらに,木構造軌道上の冗長な計算を最大6.2倍の高速化で除去するためのMoE RLトレーニングとツリートレーニングの安定化のためのMCLAを提案する。
KAT-Coder-V2 は SWE-bench Verified (vs. Claude Opus 4.6 at 80.8%)、88.7 on PinchBench (GLM-5 と MiniMax M2.7) で79.6%を獲得し、3つのフロントエンド美学シナリオで第1位となり、ターミナル・ベンチハード (46.8) とタウ^2-Bench (93.9) で強力な一般スコアを維持している。
私たちのモデルはhttps://streamlake.com/product/kat-coder.comで公開されています。
関連論文リスト
- Composer 2 Technical Report [93.84516486051359]
Composer 2はエージェントソフトウェアエンジニアリング用に設計された特殊なモデルである。
モデルは2つのフェーズでトレーニングされる。まず、モデルの知識を改善するための事前トレーニングと、潜伏するコーディング能力だ。
デプロイされたモデルで使用されるのと同じカーソルハーネスでトレーニングをサポートするインフラを開発する。
論文 参考訳(メタデータ) (2026-03-25T16:18:37Z) - Revolutionizing Reinforcement Learning Framework for Diffusion Large Language Models [49.911784762244814]
TraceRLは拡散言語モデル(DLM)のための軌道対応強化学習フレームワークである
我々は最先端の拡散言語モデル、すなわち TraDo を導出する。
TraDo-8B-InstructはQwen2.5-7B-Instructで6.1%、Llama3.1-8B-Instructで51.3%の精度向上を実現している。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Kimi K2: Open Agentic Intelligence [118.78600121345099]
Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。
MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。
Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-07-28T05:35:43Z) - Co-Evolving LLM Coder and Unit Tester via Reinforcement Learning [48.66688117533318]
本稿では,専用の報酬設計を備えた新しい強化学習フレームワークCUREを提案する。
CUREは、その相互作用の結果に基づいて、コーディングと単体テスト生成機能を共進化させる。
我々のモデルは,ベースモデルに基づく強化学習に有効な報奨モデルとして機能することを発見した。
論文 参考訳(メタデータ) (2025-06-03T17:58:42Z) - ACECODER: Acing Coder RL via Automated Test-Case Synthesis [36.740393665032954]
既存のコードデータから広範な(問い合わせ、テストケース)ペアを生成するパイプラインを設計します。
我々は,Bradley-Terry損失を伴う報酬モデルをトレーニングするために,サンプルプログラムのパスレートに基づいて選好ペアを構築した。
RLトレーニングは,80段階の最適化ステップにおいて,HumanEval+を25%以上,MBPP+を6%以上改善できることを示す。
論文 参考訳(メタデータ) (2025-02-03T18:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。