論文の概要: Kimi K2: Open Agentic Intelligence
- arxiv url: http://arxiv.org/abs/2507.20534v1
- Date: Mon, 28 Jul 2025 05:35:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.873178
- Title: Kimi K2: Open Agentic Intelligence
- Title(参考訳): Kimi K2: オープンエージェントインテリジェンス
- Authors: Kimi Team, Yifan Bai, Yiping Bao, Guanduo Chen, Jiahao Chen, Ningxin Chen, Ruijue Chen, Yanru Chen, Yuankun Chen, Yutian Chen, Zhuofu Chen, Jialei Cui, Hao Ding, Mengnan Dong, Angang Du, Chenzhuang Du, Dikang Du, Yulun Du, Yu Fan, Yichen Feng, Kelin Fu, Bofei Gao, Hongcheng Gao, Peizhong Gao, Tong Gao, Xinran Gu, Longyu Guan, Haiqing Guo, Jianhang Guo, Hao Hu, Xiaoru Hao, Tianhong He, Weiran He, Wenyang He, Chao Hong, Yangyang Hu, Zhenxing Hu, Weixiao Huang, Zhiqi Huang, Zihao Huang, Tao Jiang, Zhejun Jiang, Xinyi Jin, Yongsheng Kang, Guokun Lai, Cheng Li, Fang Li, Haoyang Li, Ming Li, Wentao Li, Yanhao Li, Yiwei Li, Zhaowei Li, Zheming Li, Hongzhan Lin, Xiaohan Lin, Zongyu Lin, Chengyin Liu, Chenyu Liu, Hongzhang Liu, Jingyuan Liu, Junqi Liu, Liang Liu, Shaowei Liu, T. Y. Liu, Tianwei Liu, Weizhou Liu, Yangyang Liu, Yibo Liu, Yiping Liu, Yue Liu, Zhengying Liu, Enzhe Lu, Lijun Lu, Shengling Ma, Xinyu Ma, Yingwei Ma, Shaoguang Mao, Jie Mei, Xin Men, Yibo Miao, Siyuan Pan, Yebo Peng, Ruoyu Qin, Bowen Qu, Zeyu Shang, Lidong Shi, Shengyuan Shi, Feifan Song, Jianlin Su, Zhengyuan Su, Xinjie Sun, Flood Sung, Heyi Tang, Jiawen Tao, Qifeng Teng, Chensi Wang, Dinglu Wang, Feng Wang, Haiming Wang, Jianzhou Wang, Jiaxing Wang, Jinhong Wang, Shengjie Wang, Shuyi Wang, Yao Wang, Yejie Wang, Yiqin Wang, Yuxin Wang, Yuzhi Wang, Zhaoji Wang, Zhengtao Wang, Zhexu Wang, Chu Wei, Qianqian Wei, Wenhao Wu, Xingzhe Wu, Yuxin Wu, Chenjun Xiao, Xiaotong Xie, Weimin Xiong, Boyu Xu, Jing Xu, Jinjing Xu, L. H. Xu, Lin Xu, Suting Xu, Weixin Xu, Xinran Xu, Yangchuan Xu, Ziyao Xu, Junjie Yan, Yuzi Yan, Xiaofei Yang, Ying Yang, Zhen Yang, Zhilin Yang, Zonghan Yang, Haotian Yao, Xingcheng Yao, Wenjie Ye, Zhuorui Ye, Bohong Yin, Longhui Yu, Enming Yuan, Hongbang Yuan, Mengjie Yuan, Haobing Zhan, Dehao Zhang, Hao Zhang, Wanlu Zhang, Xiaobin Zhang, Yangkun Zhang, Yizhi Zhang, Yongting Zhang, Yu Zhang, Yutao Zhang, Yutong Zhang, Zheng Zhang, Haotian Zhao, Yikai Zhao, Huabin Zheng, Shaojie Zheng, Jianren Zhou, Xinyu Zhou, Zaida Zhou, Zhen Zhu, Weiyu Zhuang, Xinxing Zu,
- Abstract要約: Kimi K2は32億の活性化パラメータと1兆の総パラメータを持つ大きな言語モデルである。
MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。
Kimi K2は、オープンソース非思考モデルの間で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 118.78600121345099
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Kimi K2, a Mixture-of-Experts (MoE) large language model with 32 billion activated parameters and 1 trillion total parameters. We propose the MuonClip optimizer, which improves upon Muon with a novel QK-clip technique to address training instability while enjoying the advanced token efficiency of Muon. Based on MuonClip, K2 was pre-trained on 15.5 trillion tokens with zero loss spike. During post-training, K2 undergoes a multi-stage post-training process, highlighted by a large-scale agentic data synthesis pipeline and a joint reinforcement learning (RL) stage, where the model improves its capabilities through interactions with real and synthetic environments. Kimi K2 achieves state-of-the-art performance among open-source non-thinking models, with strengths in agentic capabilities. Notably, K2 obtains 66.1 on Tau2-Bench, 76.5 on ACEBench (En), 65.8 on SWE-Bench Verified, and 47.3 on SWE-Bench Multilingual -- surpassing most open and closed-sourced baselines in non-thinking settings. It also exhibits strong capabilities in coding, mathematics, and reasoning tasks, with a score of 53.7 on LiveCodeBench v6, 49.5 on AIME 2025, 75.1 on GPQA-Diamond, and 27.1 on OJBench, all without extended thinking. These results position Kimi K2 as one of the most capable open-source large language models to date, particularly in software engineering and agentic tasks. We release our base and post-trained model checkpoints to facilitate future research and applications of agentic intelligence.
- Abstract(参考訳): 我々は32億の活性化パラメータと1兆の総パラメータを持つMixture-of-Experts(MoE)大言語モデルであるKimi K2を紹介する。
我々は,Muonの高度なトークン効率を享受しながら,トレーニング不安定性に対処するために,新しいQK-Clip技術によりMuonを改善するMuonClipオプティマイザを提案する。
MuonClipに基づいて、K2は15.5兆のトークンで事前訓練され、損失のスパイクはゼロだった。
ポストトレーニング中、K2は大規模エージェントデータ合成パイプラインと共同強化学習(RL)ステージによって強調され、実環境と合成環境との相互作用を通じてその能力を向上するマルチステージ後トレーニングプロセスを実行する。
Kimi K2は、エージェント能力の強いオープンソース非思考モデルの間で、最先端のパフォーマンスを実現している。
特に、K2はTau2-Benchで66.1、ACEBench (En)で76.5、SWE-Bench Verifiedで65.8、SWE-Bench Multilingualで47.3を取得している。
LiveCodeBench v6では53.7点、AIME 2025では49.5点、GPQA-ダイアモンドでは75.1点、OJBenchでは27.1点と、コーディング、数学、推論タスクの強力な能力を示している。
これらの結果は、Kimi K2を、特にソフトウェア工学やエージェントタスクにおいて、これまでで最も有能なオープンソースの大規模言語モデルの一つと位置づけている。
エージェント・インテリジェンスの将来の研究や応用を促進するため、ベースおよびポストトレーニングされたモデルチェックポイントをリリースする。
関連論文リスト
- Kimi k1.5: Scaling Reinforcement Learning with LLMs [84.95584393629998]
我々は、強化学習で訓練された最新のマルチモーダル言語モデル、Kimi k1.5の訓練実践について報告する。
長いコンテキストスケーリングと改善されたポリシー最適化手法が、我々のアプローチの鍵となる要素である。
本システムは,複数のベンチマークやモダリティに対して,最先端の推論性能を実現する。
論文 参考訳(メタデータ) (2025-01-22T02:48:14Z) - Building Math Agents with Multi-Turn Iterative Preference Learning [56.71330214021884]
本稿では,モデル性能をさらに向上させるために,補完的な直接選好学習手法について検討する。
既存の直接選好学習アルゴリズムは、もともとシングルターンチャットタスク用に設計されている。
この文脈に合わせたマルチターン直接選好学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-04T02:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。