論文の概要: LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs
- arxiv url: http://arxiv.org/abs/2604.22050v1
- Date: Thu, 23 Apr 2026 20:12:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.259723
- Title: LayerBoost: Layer-Aware Attention Reduction for Efficient LLMs
- Title(参考訳): LayerBoost: 効率的なLCMのためのレイヤアウェアアテンション低減
- Authors: Mohamed Ali Souibgui, Jan Fostier, Rodrigo Abadía-Heredia, Bohdan Denysenko, Christian Marschke, Igor Peric,
- Abstract要約: LayerBoostは推論遅延を低減し、スループットを最大68%向上する。
いくつかのベンチマークでベースモデルのパフォーマンスと一致し、他のベンチマークでは小さな劣化しか示さず、最先端の注目線形化手法よりも大幅に優れています。
- 参考スコア(独自算出の注目度): 3.80555579179805
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers are mostly relying on softmax attention, which introduces quadratic complexity with respect to sequence length and remains a major bottleneck for efficient inference. Prior work on linear or hybrid attention typically replaces softmax attention uniformly across all layers, often leading to significant performance degradation or requiring extensive retraining to recover model quality. This work proposes LayerBoost, a layer-aware attention reduction method that selectively modifies the attention mechanism based on the sensitivity of individual transformer layers. It first performs a systematic sensitivity analysis on a pretrained model to identify layers that are critical for maintaining performance. Guided by this analysis, three distinct strategies can be applied: retaining standard softmax attention in highly sensitive layers, replacing it with linear sliding window attention in moderately sensitive layers, and removing attention entirely in layers that exhibit low sensitivity. To recover performance after these architectural modifications, we introduce a lightweight distillation-based healing phase requiring only 10M additional training tokens. LayerBoost reduces inference latency and improves throughput by up to 68% at high concurrency, while maintaining competitive model quality. It matches base model performance on several benchmarks, exhibits only minor degradations on others, and significantly outperforms state-of-the-art attention linearization methods. These efficiency gains make our method particularly well-suited for high-concurrency serving and hardware-constrained deployment scenarios, where inference cost and memory footprint are critical bottlenecks.
- Abstract(参考訳): トランスフォーマーは主にソフトマックスの注意を頼りにしており、シーケンス長に関して2次複雑さを導入し、効率的な推論のボトルネックとなっている。
線形またはハイブリッドの注意に関する以前の作業は、通常、すべての層でソフトマックスの注意を均一に置き換える。
本研究では,個々のトランス層の感度に基づいてアテンションメカニズムを選択的に修飾するレイヤ対応アテンション低減手法であるLayerBoostを提案する。
まず、事前訓練されたモデルでシステマティックな感度分析を行い、パフォーマンスを維持するために重要なレイヤを特定する。
この分析で導かれた3つの戦略は、高感度層における標準ソフトマックスの注意を保ち、適度に感度の低い層において線形なスライディングウインドウの注意に置き換え、低感度層における注意を完全に取り除くことである。
これらのアーキテクチャ変更後の性能回復のために,1000万個の追加のトレーニングトークンを必要とせず,軽度蒸留法を併用したヒーリングフェーズを導入する。
LayerBoostは、競合するモデル品質を維持しながら、推論レイテンシを低減し、高い並行性でスループットを最大68%改善する。
いくつかのベンチマークでベースモデルのパフォーマンスと一致し、他のベンチマークでは小さな劣化しか示さず、最先端の注目線形化手法よりも大幅に優れています。
これらの効率向上により,提案手法は特に,推論コストとメモリフットプリントが重要なボトルネックとなる,高コンカレンシーサービスやハードウェア制約のデプロイメントシナリオに適している。
関連論文リスト
- Distilling to Hybrid Attention Models via KL-Guided Layer Selection [66.06591032073744]
本稿では,テキストデータに対する少量のトレーニングから得られた重要度スコアを用いた,簡易かつ効率的な層選択法について述べる。
この手法は, 固定比に基づいて線形注意を均一に解き出す手法を含む, 従来の層選択手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2025-12-23T18:12:22Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - Enhancing Layer Attention Efficiency through Pruning Redundant Retrievals [0.0]
隣接層間のKL(Kulback-Leibler)のばらつきを利用して冗長性を定量化する手法を提案する。
また、冗長層を正確に識別し、スキップする拡張ベータ量子マッピング(EBQM)手法も導入する。
提案したELAアーキテクチャは,トレーニング効率と全体的なパフォーマンスを両立させ,トレーニング時間の30%削減を実現している。
論文 参考訳(メタデータ) (2025-03-09T06:20:11Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - Skip-Attention: Improving Vision Transformers by Paying Less Attention [55.47058516775423]
視覚計算変換器(ViT)は、すべての層で高価な自己注意操作を使用する。
また,SkipAtを提案する。SkipAtは,先行層から自己注意を再利用して1層以上の注意を近似する手法である。
本稿では,画像の分類と自己教師型学習,ADE20Kのセマンティックセグメンテーション,SIDDの画像デノイング,DAVISのビデオデノナイズにおける手法の有効性を示す。
論文 参考訳(メタデータ) (2023-01-05T18:59:52Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。