論文の概要: Trainable Dynamic Mask Sparse Attention
- arxiv url: http://arxiv.org/abs/2508.02124v3
- Date: Sun, 28 Sep 2025 01:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.499342
- Title: Trainable Dynamic Mask Sparse Attention
- Title(参考訳): トレーニング可能なダイナミックマスクスパース注意
- Authors: Jingze Shi, Yifan Wu, Yiran Peng, Bingheng Wu, Liangdong Wang, Guang Liu, Yuyu Luo,
- Abstract要約: 大規模な言語モデルでは、長いコンテキストのモデリングに対する需要はますます増加しています。
既存のスパースアテンションメカニズムは効率を高めるが、静的パターンや情報損失といった制限に悩まされることが多い。
本稿では,3つの重要なイノベーションを通じてこれらの課題に対処する,トレーニング可能なダイナミックマスクスパース注意機構を提案する。
- 参考スコア(独自算出の注目度): 11.506985057671015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large language models, the demand for modeling long contexts is ever-increasing, yet the quadratic complexity of standard self-attention presents a significant bottleneck. While existing sparse attention mechanisms enhance efficiency, they often suffer from limitations such as static patterns and information loss. This paper introduces a Trainable Dynamic Mask Sparse Attention mechanism that addresses these challenges through three key innovations. First, it leverages value vectors to dynamically generate content-aware sparse masks, enabling the model to adaptively identify and focus on crucial information. Second, it implements a position-aware sparse attention computation that effectively skips unnecessary computational regions. Finally, we ensure that the introduced dynamic masks and sparse weights do not obstruct gradients, thereby supporting end-to-end training. This dual-sparsity design allows the model to retain complete information while significantly reducing computational complexity, achieving an excellent balance between efficiency and performance. We validate the performance of Dynamic Mask Attention through comprehensive experiments. Comparative studies demonstrate that our method consistently achieves Pareto dominance across various tasks, including scaling laws, multi-query associative recall, general benchmarks, and needle-in-a-haystack tests, delivering up to 10 times acceleration. These results highlight its capability to effectively balance model efficiency with long-context modeling. Our computational kernel is open-sourced at https://github.com/SmallDoges/flash-dmattn to facilitate further research and application within the community.
- Abstract(参考訳): 大規模言語モデルでは、長いコンテキストのモデリングに対する需要はますます高まっているが、標準的な自己注意の二次的な複雑さは重大なボトルネックとなっている。
既存のスパースアテンションメカニズムは効率を高めるが、静的パターンや情報損失といった制限に悩まされることが多い。
本稿では,3つの重要なイノベーションを通じてこれらの課題に対処する,トレーニング可能なダイナミックマスクスパース注意機構を提案する。
まず、値ベクトルを活用して、コンテンツ対応スパースマスクを動的に生成し、モデルが重要な情報を適応的に識別し、フォーカスできるようにする。
第二に、不要な計算領域を効果的にスキップする位置認識スパースアテンション計算を実装している。
最後に、導入したダイナミックマスクとスパースウェイトが勾配を妨げないようにし、エンドツーエンドのトレーニングをサポートする。
この二重スパーシティ設計により、モデルは完全な情報を保持でき、計算の複雑さを著しく減らし、効率と性能のバランスが良好になる。
総合実験により,動的マスク注意の有効性を検証した。
提案手法は,スケーリング法則,マルチクエリ・アソシエーション・リコール,一般ベンチマーク,ニードル・イン・ア・ヘイスタック・テストなど,様々なタスクにおいて一貫してパレート・アドミナンスを実現し,最大10倍の高速化を実現している。
これらの結果は、長文モデリングとモデル効率を効果的にバランスさせる能力を強調している。
私たちの計算カーネルはhttps://github.com/SmallDoges/flash-dmattnでオープンソース化されています。
関連論文リスト
- Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration [12.172968576254469]
本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。
コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。
このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:24:36Z) - Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文 参考訳(メタデータ) (2025-03-21T00:48:31Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Unsupervised Representation Learning of Complex Time Series for Maneuverability State Identification in Smart Mobility [0.0]
スマートモビリティでは、操縦パターンのような行動の時間的ダイナミクスを提供する上で、MSSは重要な役割を果たす。
本研究では,センサを用いた車両から収集したMSSデータのモデル化に関わる課題に対処することを目的とする。
我々の目標は、スマートモビリティにおける操作状態の特定における2つの異なる教師なし表現学習手法の有効性を検討することである。
論文 参考訳(メタデータ) (2024-08-26T15:16:18Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。