論文の概要: Attention Residuals
- arxiv url: http://arxiv.org/abs/2603.15031v1
- Date: Mon, 16 Mar 2026 09:32:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.987271
- Title: Attention Residuals
- Title(参考訳): 留置物
- Authors: Kimi Team, Guangyu Chen, Yu Zhang, Jianlin Su, Weixin Xu, Siyuan Pan, Yaoyu Wang, Yucheng Wang, Guanduo Chen, Bohong Yin, Yutian Chen, Junjie Yan, Ming Wei, Y. Zhang, Fanqing Meng, Chao Hong, Xiaotong Xie, Shaowei Liu, Enzhe Lu, Yunpeng Tai, Yanru Chen, Xin Men, Haiqing Guo, Y. Charles, Haoyu Lu, Lin Sui, Jinguo Zhu, Zaida Zhou, Weiran He, Weixiao Huang, Xinran Xu, Yuzhi Wang, Guokun Lai, Yulun Du, Yuxin Wu, Zhilin Yang, Xinyu Zhou,
- Abstract要約: PreNorm との残余接続は現代の LLM では標準的なものであるが、固定単位重み付きで全ての層出力を蓄積する。
本稿では,アテンション残余(AttnRes)を提案する。
- 参考スコア(独自算出の注目度): 38.59138244826294
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Residual connections with PreNorm are standard in modern LLMs, yet they accumulate all layer outputs with fixed unit weights. This uniform aggregation causes uncontrolled hidden-state growth with depth, progressively diluting each layer's contribution. We propose Attention Residuals (AttnRes), which replaces this fixed accumulation with softmax attention over preceding layer outputs, allowing each layer to selectively aggregate earlier representations with learned, input-dependent weights. To address the memory and communication overhead of attending over all preceding layer outputs for large-scale model training, we introduce Block AttnRes, which partitions layers into blocks and attends over block-level representations, reducing the memory footprint while preserving most of the gains of full AttnRes. Combined with cache-based pipeline communication and a two-phase computation strategy, Block AttnRes becomes a practical drop-in replacement for standard residual connections with minimal overhead. Scaling law experiments confirm that the improvement is consistent across model sizes, and ablations validate the benefit of content-dependent depth-wise selection. We further integrate AttnRes into the Kimi Linear architecture (48B total / 3B activated parameters) and pre-train on 1.4T tokens, where AttnRes mitigates PreNorm dilution, yielding more uniform output magnitudes and gradient distribution across depth, and improves downstream performance across all evaluated tasks.
- Abstract(参考訳): PreNorm との残余接続は現代の LLM では標準的なものであるが、固定単位重み付きで全ての層出力を蓄積する。
この均一な凝集は、未制御の隠れ状態の成長を深さと共に引き起こし、各層の寄与を徐々に薄める。
本稿では,この固定された蓄積を,先行層出力に対するソフトマックスアテンションに置き換えたアテンション残差(AttnRes)を提案し,各層が学習した入力依存重みで先行表現を選択的に集約することを可能にする。
大規模なモデルトレーニングのために,先行するすべてのレイヤ出力に参画するメモリと通信のオーバーヘッドに対処するために,ブロックに分割してブロックレベルの表現に参画するBlock AttnResを導入し,完全なAttnResのメリットの大部分を保ちながらメモリフットプリントを削減した。
キャッシュベースのパイプライン通信と2フェーズの計算戦略を組み合わせることで、Block AttnResは、オーバーヘッドを最小限に抑えた標準的な残コネクションを、実用的なドロップインで置き換えることができます。
法則実験のスケーリングにより、改善はモデルサイズ間で一貫性があることが確認され、アブレーションはコンテンツ依存の深さワイド選択の利点を検証する。
我々はさらに、AttnResをKimi Linear Architecture(48B total / 3B activated parameters)と1.4Tトークンの事前トレーニングに統合し、AttnResはPreNormの希釈を緩和し、より均一な出力サイズと深さの勾配分布をもたらし、全ての評価されたタスクの下流性能を向上させる。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - ShiftLUT: Spatial Shift Enhanced Look-Up Tables for Efficient Image Restoration [8.845117852325997]
ShiftLUTは、LUTベースのすべてのメソッドの中で、高い効率を維持しながら、最大の受容領域を実現する新しいフレームワークである。
従来の最先端のTinyLUTと比較して、ShiftLUTは3.8$times$大きな受容場を実現し、平均PSNRを0.21dB以上改善している。
論文 参考訳(メタデータ) (2026-03-01T04:00:23Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - You Do Not Fully Utilize Transformer's Representation Capacity [4.753535328327317]
LIMe(Layer-Integrated Memory)は、階層単位のルーティング重み付けを学習し、以前のすべてのレイヤからの表現を無視可能なオーバーヘッドで統合する軽量な拡張である。
LIMeは一貫して高速収束、FLOPあたりのパープレキシティの低下、および合成タスクの大幅な精度向上を実現している。
論文 参考訳(メタデータ) (2025-02-13T12:00:50Z) - Learning Inverse Laplacian Pyramid for Progressive Depth Completion [18.977393635158048]
LP-Netは、ラプラシアンピラミッド分解に基づくマルチスケールでプログレッシブな予測パラダイムを実装する革新的なフレームワークである。
提出時点では、LP-Netは公式のKITTIリーダーボードで全ての査読された方法の中で第1位である。
論文 参考訳(メタデータ) (2025-02-11T06:21:42Z) - Initialization Matters: On the Benign Overfitting of Two-Layer ReLU CNN with Fully Trainable Layers [20.25049261035324]
解析は、完全にトレーニング可能な層を持つ2層ReLU畳み込みニューラルネットワーク(CNN)に拡張する。
以上の結果から,出力層のスケーリングがトレーニングのダイナミックスに不可欠であることが示唆された。
どちらの設定でも、テストエラーの上限と下限にほぼ一致するものを提供します。
論文 参考訳(メタデータ) (2024-10-24T20:15:45Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。