Fugu-MT 論文翻訳(概要): KAT-Coder Technical Report

論文の概要: KAT-Coder Technical Report

arxiv url: http://arxiv.org/abs/2510.18779v1
Date: Tue, 21 Oct 2025 16:27:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-25 03:08:13.922497
Title: KAT-Coder Technical Report
Title（参考訳）: KATコーダ技術報告
Authors: Zizheng Zhan, Ken Deng, Xiaojiang Zhang, Jinghui Wang, Huaixi Tang, Zhiyi Lai, Haoyang Huang, Wen Xiang, Kun Wu, Wenhao Zhuang, Minglei Zhang, Shaojie Wang, Shangpeng Yan, Kepeng Lei, Zongxian Feng, Huiming Wang, Zheng Lin, Mengtong Li, Mengfei Xie, Yinghan Cui, Xuxing Chen, Chao Wang, Weihao Li, Wenqiang Zhu, Jiarong Zhang, Jingxuan Xu, Songwei Yu, Yifan Yao, Xinping Lei, Han Li, Junqi Xiong, Zuchen Gao, Dailin Li, Haimo Li, Jiaheng Liu, Yuqun Zhang, Junyi Peng, Haotian Zhang, Bin Chen,
Abstract要約: KAT-Coderは、中期訓練、監視ファインチューニング(SFT)、強化ファインチューニング(RFT)、強化デプロイ適応(Reinforcement-to-Deployment Adaptation)を含む多段階のカリキュラムを通じて訓練された大規模なエージェントコードモデルである。これらの段階により、KAT-Coderは堅牢なツール使用信頼性、命令アライメント、長いコンテキスト推論を実現することができる。
参考スコア（独自算出の注目度）: 48.314569284539026
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advances in large language models (LLMs) have enabled progress in agentic coding, where models autonomously reason, plan, and act within interactive software development workflows. However, bridging the gap between static text-based training and dynamic real-world agentic execution remains a core challenge. In this technical report, we present KAT-Coder, a large-scale agentic code model trained through a multi-stage curriculum encompassing Mid-Term Training, Supervised Fine-Tuning (SFT), Reinforcement Fine-Tuning (RFT), and Reinforcement-to-Deployment Adaptation. The Mid-Term stage enhances reasoning, planning, and reflection capabilities through a corpus of real software engineering data and synthetic agentic interactions. The SFT stage constructs a million-sample dataset balancing twenty programming languages, ten development contexts, and ten task archetypes. The RFT stage introduces a novel multi-ground-truth reward formulation for stable and sample-efficient policy optimization. Finally, the Reinforcement-to-Deployment phase adapts the model to production-grade IDE environments using Error-Masked SFT and Tree-Structured Trajectory Training. In summary, these stages enable KAT-Coder to achieve robust tool-use reliability, instruction alignment, and long-context reasoning, forming a deployable foundation for real-world intelligent coding agents. Our KAT series 32B model, KAT-Dev, has been open-sourced on https://huggingface.co/Kwaipilot/KAT-Dev.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、対話型ソフトウェア開発ワークフローにおいて、モデルが自律的に推論、計画、行動を行うエージェントコーディングの進歩を可能にしている。しかし、静的テキストベースのトレーニングと動的実世界のエージェント実行のギャップを埋めることは、依然として重要な課題である。本稿では,中等教育,監視ファインチューニング (SFT) ,強化ファインチューニング (RFT) ,強化デプロイ適応 (Reinforcement-to-Deployment Adaptation) を含む多段階カリキュラムを通じて訓練された大規模エージェントコードモデルであるKAT-Coderを紹介する。中期段階は、実際のソフトウェアエンジニアリングデータと合成エージェントインタラクションのコーパスを通じて、推論、計画、リフレクション機能を強化する。 SFTステージは、20のプログラミング言語、10の開発コンテキスト、10のタスクアーチタイプをバランスよく、100万サンプルのデータセットを構築する。 RFTステージでは、安定かつサンプル効率の政策最適化のための新しいマルチグラウンド・トゥルース報酬の定式化が導入された。最後に、Reinforcement-to-Deploymentフェーズは、Error-Masked SFTとTree-Structured Trajectory Trainingを使用して、本番レベルのIDE環境にモデルを適応させる。まとめると、これらのステージは、KAT-Coderが堅牢なツール使用信頼性、命令アライメント、長期コンテキスト推論を実現し、現実世界のインテリジェントコーディングエージェントのためのデプロイ可能な基盤を形成する。 KATシリーズ32BモデルであるKAT-Devはhttps://huggingface.co/Kwaipilot/KAT-Devでオープンソース化されました。

関連論文リスト

ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。 ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2026-01-29T11:22:23Z)
daVinci-Dev: Agent-native Mid-training for Software Engineering [22.845876048950483]
本稿では,エージェント・ミドルトレーニングの体系的な研究を行い,大規模エージェント開発のためのデータ合成の原則と訓練方法を確立する。私たちは、トレーニング後の2つの設定の下で、以前のオープンソースエンジニアリングのミッドトレーニングレシピであるKimi-Devよりも、整列ベースモデルとエージェントスキャフォールドの方が優れていることを実証します。
論文参考訳（メタデータ） (2026-01-26T12:20:18Z)
Youtu-LLM: Unlocking the Native Agentic Potential for Lightweight Large Language Models [78.73992315826035]
ネイティブエージェントインテリジェンスと高い計算効率を調和させる軽量言語モデルであるYoutu-LLMを紹介する。 Youtu-LLMは、スクラッチから体系的に推論と計画能力の育成まで事前訓練されている。
論文参考訳（メタデータ） (2025-12-31T04:25:11Z)
DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文参考訳（メタデータ） (2025-12-23T08:33:19Z)
From Code Foundation Models to Agents and Applications: A Practical Guide to Code Intelligence [150.3696990310269]
大規模言語モデル(LLM)は、自然言語記述を直接関数コードに変換することによって、自動ソフトウェア開発を変革した。コードLLMに関する総合的な合成と実践的ガイド(一連の解析および探索実験)を提供する。一般LLM(GPT-4, Claude, LLaMA)とコード特殊化LLM(StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder)のコード機能の解析を行う。
論文参考訳（メタデータ） (2025-11-23T17:09:34Z)
ACT: Bridging the Gap in Code Translation through Synthetic Data Generation & Adaptive Training [1.4709455282157278]
Auto-Train for Code Translation (ACT)は、オープンソースのLarge Language Models (LLM)を社内で微調整することで、コード翻訳機能を改善することを目的としている。 ACTの自動パイプラインはこれらのモデルの性能を大幅に向上させ、オープンソースアクセシビリティとクローズドソースソリューションのパフォーマンスのギャップを狭める。我々の結果は、ACTがオープンソースモデルの有効性を一貫して強化し、企業や開発者が安全で信頼性の高い代替手段を提供することを示した。
論文参考訳（メタデータ） (2025-07-22T11:35:35Z)
SWE-Dev: Evaluating and Training Autonomous Feature-Driven Software Development [40.48114055515786]
SWE-Devは、現実世界の機能開発タスクで自律的なコーディングシステムを評価し、訓練するために設計された最初の大規模データセットである。このコレクションは、Supervised Fine-Tuning(SFT)のための高品質なデータを提供するが、実行可能単体テストから正確な報酬信号を提供することで強化学習(RL)を可能にする。
論文参考訳（メタデータ） (2025-05-22T17:51:49Z)
Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文参考訳（メタデータ） (2025-03-31T07:31:32Z)
SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents [50.82665351100067]
FlowGenは、複数のLarge Language Model (LLM)エージェントに基づいたソフトウェアプロセスモデルをエミュレートするコード生成フレームワークである。 FlowGenScrumをHumanEval、HumanEval-ET、MBPP、MBPP-ETの4つのベンチマークで評価した。
論文参考訳（メタデータ） (2024-03-23T14:04:48Z)
ChatDev: Communicative Agents for Software Development [84.90400377131962]
ChatDevはチャットを利用したソフトウェア開発フレームワークで、特別なエージェントがコミュニケーション方法についてガイドされる。これらのエージェントは、統一された言語ベースのコミュニケーションを通じて、設計、コーディング、テストフェーズに積極的に貢献する。
論文参考訳（メタデータ） (2023-07-16T02:11:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。