論文の概要: Kimi Linear: An Expressive, Efficient Attention Architecture
- arxiv url: http://arxiv.org/abs/2510.26692v1
- Date: Thu, 30 Oct 2025 16:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.913486
- Title: Kimi Linear: An Expressive, Efficient Attention Architecture
- Title(参考訳): Kimi Linear: 表現力のある効果的な注意アーキテクチャ
- Authors: Kimi Team, Yu Zhang, Zongyu Lin, Xingcheng Yao, Jiaxi Hu, Fanqing Meng, Chengyin Liu, Xin Men, Songlin Yang, Zhiyuan Li, Wentao Li, Enzhe Lu, Weizhou Liu, Yanru Chen, Weixin Xu, Longhui Yu, Yejie Wang, Yu Fan, Longguang Zhong, Enming Yuan, Dehao Zhang, Yizhi Zhang, T. Y. Liu, Haiming Wang, Shengjun Fang, Weiran He, Shaowei Liu, Yiwei Li, Jianlin Su, Jiezhong Qiu, Bo Pang, Junjie Yan, Zhejun Jiang, Weixiao Huang, Bohong Yin, Jiacheng You, Chu Wei, Zhengtao Wang, Chao Hong, Yutian Chen, Guanduo Chen, Yucheng Wang, Huabin Zheng, Feng Wang, Yibo Liu, Mengnan Dong, Zheng Zhang, Siyuan Pan, Wenhao Wu, Yuhao Wu, Longyu Guan, Jiawen Tao, Guohong Fu, Xinran Xu, Yuzhi Wang, Guokun Lai, Yuxin Wu, Xinyu Zhou, Zhilin Yang, Yulun Du,
- Abstract要約: Kimi Linearはハイブリッドな線形アテンションアーキテクチャで、初めて、公正な比較で完全にアテンションを上回ります。
中心となるKimi Delta Attention (KDA)は、Gated DeltaNetを拡張した表現力のある線形アテンションモジュールである。
我々は,Kimi Linearがより優れた性能と効率で十分な注意を払って,ドロップインで置き換えられることを示す。
- 参考スコア(独自算出の注目度): 75.89211364086309
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce Kimi Linear, a hybrid linear attention architecture that, for the first time, outperforms full attention under fair comparisons across various scenarios -- including short-context, long-context, and reinforcement learning (RL) scaling regimes. At its core lies Kimi Delta Attention (KDA), an expressive linear attention module that extends Gated DeltaNet with a finer-grained gating mechanism, enabling more effective use of limited finite-state RNN memory. Our bespoke chunkwise algorithm achieves high hardware efficiency through a specialized variant of the Diagonal-Plus-Low-Rank (DPLR) transition matrices, which substantially reduces computation compared to the general DPLR formulation while remaining more consistent with the classical delta rule. We pretrain a Kimi Linear model with 3B activated parameters and 48B total parameters, based on a layerwise hybrid of KDA and Multi-Head Latent Attention (MLA). Our experiments show that with an identical training recipe, Kimi Linear outperforms full MLA with a sizeable margin across all evaluated tasks, while reducing KV cache usage by up to 75% and achieving up to 6 times decoding throughput for a 1M context. These results demonstrate that Kimi Linear can be a drop-in replacement for full attention architectures with superior performance and efficiency, including tasks with longer input and output lengths. To support further research, we open-source the KDA kernel and vLLM implementations, and release the pre-trained and instruction-tuned model checkpoints.
- Abstract(参考訳): 私たちはKimi Linearというハイブリッド線形アテンションアーキテクチャを紹介します。これは、短いコンテキスト、長いコンテキスト、強化学習(RL)スケーリングレジームなど、さまざまなシナリオにおける公正な比較において、初めて、完全な注意力を発揮するものです。
中心となるKim Delta Attention (KDA)は、Gated DeltaNetをよりきめ細かいゲーティング機構で拡張し、有限状態RNNメモリのより効率的な使用を可能にする、表現力のある線形アテンションモジュールである。
提案アルゴリズムは,従来のデルタ法則と整合性を保ちながら,一般のDPLR法よりも計算量を大幅に削減する,Diaagonal-Plus-Low-Rank(DPLR)遷移行列の特殊変種を用いて,高いハードウェア効率を実現する。
我々は,KDAとMulti-Head Latent Attention (MLA)の階層的ハイブリッドに基づいて,3Bの活性化パラメータと48Bの総パラメータを持つキミ線形モデルを事前学習する。
実験の結果,Kimi Linearは,KVキャッシュ使用率を最大75%削減し,100Mコンテキストで最大6倍の復号スループットを実現した。
これらの結果から,Kimi Linearは,より長い入力長と出力長のタスクを含む,パフォーマンスと効率の優れたフルアテンションアーキテクチャの代替となる可能性が示唆された。
さらなる研究を支援するため、我々はKDAカーネルとvLLM実装をオープンソース化し、事前訓練されたモデルチェックポイントと命令調整されたモデルチェックポイントをリリースする。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - Distill-then-Replace: Efficient Task-Specific Hybrid Attention Model Construction [3.9660062354591754]
トランスフォーマーアーキテクチャは、密度の高いフルアテンションによって最先端の精度を提供するが、その2次時間とメモリの複雑さは、実用的なデプロイメントを制限している。
線形アテンションメカニズムは、線形またはニア線形スケーリングを提供するが、しばしば性能劣化を引き起こす。
我々は,対象タスクの検証性能を監視しながら,すべての注意ブロックを線形に置き換える,欲求層置換戦略を導入する。
これにより、コストのかかる再トレーニングやニューラルアーキテクチャ検索を必要とせず、単一の効率的なパスでタスク固有のハイブリッドモデルが得られ、さまざまな下流タスクのために事前トレーニングされたフルアテンションバックボーンに適用できる。
論文 参考訳(メタデータ) (2026-01-16T02:01:40Z) - Training-free Context-adaptive Attention for Efficient Long Context Modeling [57.703159205740185]
トレーニングフリーコンテキスト適応注意(TCA-Attention)は、学習不要なスパースアテンション機構であり、効率的な長文推論のための情報トークンのみに選択的に参画する。
TCA-Attentionは2.8$times$のスピードアップを実現し、128Kのコンテキスト長でKVキャッシュを61%削減し、フルアテンションに匹敵するパフォーマンスを維持している。
論文 参考訳(メタデータ) (2025-12-10T01:54:57Z) - DeltaLLM: A Training-Free Framework Exploiting Temporal Sparsity for Efficient Edge LLM Inference [19.987309147268586]
デルタLLMは、リソース制約エッジデバイス上での効率的なLCM推論を実現するために、注意パターンの時間的間隔を利用する訓練不要のフレームワークである。
我々は、エッジデバイスフレンドリーなBitNet-b1.58-2B-4TモデルとLlama3.2-1B-Instructモデルについて、様々な言語タスクで評価する。
論文 参考訳(メタデータ) (2025-07-25T18:23:18Z) - IAM: Efficient Inference through Attention Mapping between Different-scale LLMs [74.81417160018856]
IAMフレームワークは、注意計算の高速化とKVキャッシュ使用量の削減という2つの利点を実現する。
IAMはプリフィルを15%高速化し,KVキャッシュ使用量を22.1%削減できることを示す。
論文 参考訳(メタデータ) (2025-07-16T06:39:11Z) - Comba: Improving Bilinear RNNs with Closed-loop Control [57.800320390698516]
本稿では,これらのモデルの利点と限界を包括的に分析したBilinear RNNの概念を紹介する。
我々は,状態フィードバックと出力フィードバックの両補正を併用した,スカラー+低ランク状態遷移を取り入れた新しいバイリニアRNNであるCombaを提案する。
また,大規模コーパス上での340M/1.3Bパラメータのトレーニングモデルと,ハードウェア効率のよいチャンクワイド並列カーネルを実装した。
論文 参考訳(メタデータ) (2025-06-03T05:44:50Z) - Enhancing Reinforcement Learning for the Floorplanning of Analog ICs with Beam Search [0.32985979395737786]
本稿では,強化学習(RL)とビーム(BS)戦略を組み合わせたハイブリッド手法を提案する。
BSアルゴリズムはエージェントの推論プロセスを強化し、フレキシブルなフロアプランを生成する。
実験結果から, 標準RL法と比較すると, 面積, 死空間, 線長が約5~85%向上した。
論文 参考訳(メタデータ) (2025-05-08T08:50:32Z) - Breaking the Low-Rank Dilemma of Linear Attention [61.55583836370135]
線形注意(linear attention)は、複雑性を線形レベルに還元することで、はるかに効率的なソリューションを提供する。
実験により, この性能低下は, 線形アテンションの特徴マップの低ランク性に起因することが示唆された。
我々は,線形複雑性と高効率を維持しつつ,Softmaxの注目性能に匹敵するランク拡張線形注意(RALA)を導入する。
論文 参考訳(メタデータ) (2024-11-12T08:30:59Z) - Optimal Parallelization Strategies for Active Flow Control in Deep Reinforcement Learning-Based Computational Fluid Dynamics [29.49913315698914]
Deep Reinforcement Learning (DRL) は、高ダイナミックかつ非線形なアクティブフロー制御(AFC)問題を扱うための有望なアプローチとして登場した。
本研究では、DRLに基づくアルゴリズムを並列設定で最適化することに焦点を当てる。
並列効率を約49%から約78%に向上させる。
論文 参考訳(メタデータ) (2024-02-18T09:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。