論文の概要: Mixture-of-Depths Attention
- arxiv url: http://arxiv.org/abs/2603.15619v1
- Date: Mon, 16 Mar 2026 17:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.730621
- Title: Mixture-of-Depths Attention
- Title(参考訳): 深度混合注意
- Authors: Lianghui Zhu, Yuxin Fang, Bencheng Liao, Shijie Wang, Tianheng Cheng, Zilong Huang, Chen Chen, Lai Wei, Yutao Zeng, Ya Wang, Yi Lin, Yu Li, Xinggang Wang,
- Abstract要約: スケーリングディープは、大規模言語モデル(LLM)のキードライバーである。
我々はMix of-Depths attention (MoDA)を紹介する。
MoDAにより、各アテンションヘッドは、現在の層におけるシーケンスKVペアと、前の層からの深さKVペアに出席することができる。
- 参考スコア(独自算出の注目度): 65.80640499676542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling depth is a key driver for large language models (LLMs). Yet, as LLMs become deeper, they often suffer from signal degradation: informative features formed in shallow layers are gradually diluted by repeated residual updates, making them harder to recover in deeper layers. We introduce mixture-of-depths attention (MoDA), a mechanism that allows each attention head to attend to sequence KV pairs at the current layer and depth KV pairs from preceding layers. We further describe a hardware-efficient algorithm for MoDA that resolves non-contiguous memory-access patterns, achieving 97.3% of FlashAttention-2's efficiency at a sequence length of 64K. Experiments on 1.5B-parameter models demonstrate that MoDA consistently outperforms strong baselines. Notably, it improves average perplexity by 0.2 across 10 validation benchmarks and increases average performance by 2.11% on 10 downstream tasks, with a negligible 3.7% FLOPs computational overhead. We also find that combining MoDA with post-norm yields better performance than using it with pre-norm. These results suggest that MoDA is a promising primitive for depth scaling. Code is released at https://github.com/hustvl/MoDA .
- Abstract(参考訳): スケールディープは、大規模言語モデル(LLM)のキードライバーである。
しかし、LSMが深くなるにつれて、信号の劣化に悩まされることが多く、浅い層に形成された情報的特徴は、繰り返しの更新によって徐々に希薄化され、より深い層での回復が困難になる。
我々は,各注目ヘッドが現在の層におけるシーケンスKV対と,先行層からの深さKV対に対応する機構である混合深度アテンション(MoDA)を導入する。
さらに、連続しないメモリアクセスパターンを解決し、64Kのシーケンス長でFlashAttention-2の効率の97.3%を達成するMoDAのハードウェア効率アルゴリズムについて述べる。
1.5Bパラメータモデルの実験は、MoDAが強いベースラインを一貫して上回ることを示した。
特に、10の検証ベンチマークで平均パープレキシティが0.2向上し、10の下流タスクでは平均性能が2.11%向上し、3.7%のFLOPが計算オーバーヘッドを無視できる。
また、MoDAとポストノームを組み合わせることで、プレノームを使うよりも優れたパフォーマンスが得られることもわかりました。
これらの結果から,MoDAは深度スケーリングのための有望なプリミティブであることが示唆された。
コードはhttps://github.com/hustvl/MoDA で公開されている。
関連論文リスト
- LLaDA2.1: Speeding Up Text Diffusion via Token Editing [72.92893150459909]
我々は、復号速度と生成品質のトレードオフを超越するパラダイムシフトであるLLaDA2.1を発表した。
従来のマスク・ツー・Token(M2T)方式にT2T編集をシームレスに織り込むことで,共同でしきい値復号方式を導入する。
この構造的革新は、2つの異なるペルソナをもたらす: Speedy Mode (S Mode) は、M2T閾値を大胆に下げ、出力を洗練させるためにT2Tに依存しながら従来の制約を回避し、優れたベンチマークを確保するために保守的なしきい値に傾くQuality Mode (Q Mode) である。
論文 参考訳(メタデータ) (2026-02-09T14:00:07Z) - Kascade: A Practical Sparse Attention Method for Long-Context LLM Inference [9.469995152350899]
我々は、既知の観測値を活用する訓練不要なスパースアテンション手法であるカスケードを提案する。
Kascadeは、小さなアンカー層で正確なTop-kインデックスを計算し、それらのインデックスを中間再利用層で再利用する。
Kascadeは、H100 GPU上のFlashAttention-3ベースラインに対して、デコードアテンションの最大4.1倍、プリフィルアテンションの2.2倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-12-18T10:37:14Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - MoA: Mixture of Sparse Attention for Automatic Large Language Model Compression [22.038650467915176]
本研究では,異なる頭部と層に異なる注意配置を自動調整するMixture of Attention (MoA)を提案する。
MoAは様々な入力サイズに対応し、いくつかの注意点がより長いシーケンスに対応するように焦点を拡大し、他のヘッドは固定長のローカルコンテキストに一貫して集中することを示した。
論文 参考訳(メタデータ) (2024-06-21T06:58:37Z) - An efficient encoder-decoder architecture with top-down attention for
speech separation [25.092542427133704]
バイオインスパイアされた効率的なエンコーダデコーダアーキテクチャは、TDANetと呼ばれる脳のトップダウンの注意を模倣することで実現している。
3つのベンチマークデータセットにおいて、TDANetは従来型のSOTA(State-of-the-art)メソッドと競合する分離性能を一貫して達成した。
論文 参考訳(メタデータ) (2022-09-30T03:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。