論文の概要: DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration
- arxiv url: http://arxiv.org/abs/2506.11104v1
- Date: Fri, 06 Jun 2025 20:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.463041
- Title: DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration
- Title(参考訳): DAM: 長期大言語モデル推論高速化のための動的注意マスク
- Authors: Hanzhi Zhang, Heng Fan, Kewei Sha, Yan Huang, Yunhe Feng,
- Abstract要約: 本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。
コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。
このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
- 参考スコア(独自算出の注目度): 12.172968576254469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-context understanding is crucial for many NLP applications, yet transformers struggle with efficiency due to the quadratic complexity of self-attention. Sparse attention methods alleviate this cost but often impose static, predefined masks, failing to capture heterogeneous attention patterns. This results in suboptimal token interactions, limiting adaptability and retrieval accuracy in long-sequence tasks. This work introduces a dynamic sparse attention mechanism that assigns adaptive masks at the attention-map level, preserving heterogeneous patterns across layers and heads. Unlike existing approaches, our method eliminates the need for fine-tuning and predefined mask structures while maintaining computational efficiency. By learning context-aware attention structures, it achieves high alignment with full-attention models, ensuring minimal performance degradation while reducing memory and compute overhead. This approach provides a scalable alternative to full attention, enabling the practical deployment of large-scale Large Language Models (LLMs) without sacrificing retrieval performance. DAM is available at: https://github.com/HanzhiZhang-Ulrica/DAM.
- Abstract(参考訳): 長いコンテキスト理解は多くのNLPアプリケーションにとって重要であるが、トランスフォーマーは自己注意の二次的な複雑さのために効率に苦しむ。
わずかな注意法によってこのコストは軽減されるが、しばしば静的で事前定義されたマスクを課し、不均一な注意パターンを捉えない。
これにより、最適化されたトークン間の相互作用が生じ、長列タスクの適応性や検索精度が制限される。
この研究は、アダプティブマスクをアダプティブマップレベルで割り当てるダイナミックスパースアテンション機構を導入し、レイヤやヘッドにまたがる異種パターンを保存する。
従来の手法とは異なり、計算効率を保ちつつ、微調整や予め定義されたマスク構造の必要性を排除している。
コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高整合を実現し、メモリと計算オーバーヘッドを低減しつつ、パフォーマンスの低下を最小限に抑える。
このアプローチは、フルアテンションに代わるスケーラブルな代替手段を提供し、検索性能を犠牲にすることなく、大規模言語モデル(LLM)の実践的な展開を可能にする。
DAMはhttps://github.com/HanzhiZhang-Ulrica/DAMで利用可能である。
関連論文リスト
- Attention, Please! Revisiting Attentive Probing for Masked Image Modeling [20.39513629593113]
我々は,冗長な投射を排除し,トレーニング可能なパラメータの数を減らし,従来のマルチヘッド注意よりも最大10$times$のスピードアップを実現する,効率的な探究機構(EP)を導入する。
EPはMIMをはるかに超えて様々な事前学習パラダイムを一般化し、解釈可能なアテンションマップを生成し、ローショットやレイヤーワイドの設定において強力なゲインを達成している。
論文 参考訳(メタデータ) (2025-06-11T21:10:26Z) - ALTo: Adaptive-Length Tokenizer for Autoregressive Mask Generation [6.618610740026886]
自己回帰マスク生成のための適応長トークンであるALToを提案する。
新規なトークン長予測器を、長さ正規化項と微分可能なトークンチャンキング戦略とともに設計する。
ALToLLMは適応トークンコストで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:26:51Z) - ColorMAE: Exploring data-independent masking strategies in Masked AutoEncoders [53.3185750528969]
Masked AutoEncoders (MAE)は、堅牢な自己管理フレームワークとして登場した。
データに依存しないColorMAEという手法を導入し、ランダムノイズをフィルタすることで異なる二元マスクパターンを生成する。
ランダムマスキングと比較して,下流タスクにおける戦略の優位性を示す。
論文 参考訳(メタデータ) (2024-07-17T22:04:00Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - A Training-free Sub-quadratic Cost Transformer Model Serving Framework With Hierarchically Pruned Attention [43.211427581302715]
大規模言語モデルにおける文脈長を増大させるため,HiP(Hierarchically Pruned Attention)を提案する。
HiPは注意機構の時間的複雑さを$O(T log T)$に減らし、空間的複雑さを$O(T)$に減らし、$T$はシーケンス長である。
HiPは, 劣化を最小限に抑えつつ, プリフィルとデコードの両方のレイテンシとメモリ使用率を著しく低減することを示す。
論文 参考訳(メタデータ) (2024-06-14T08:32:45Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。