論文の概要: Trainable Dynamic Mask Sparse Attention
- arxiv url: http://arxiv.org/abs/2508.02124v3
- Date: Sun, 28 Sep 2025 01:45:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 20:10:04.499342
- Title: Trainable Dynamic Mask Sparse Attention
- Title(参考訳): トレーニング可能なダイナミックマスクスパース注意
- Authors: Jingze Shi, Yifan Wu, Yiran Peng, Bingheng Wu, Liangdong Wang, Guang Liu, Yuyu Luo,
- Abstract要約: 大規模な言語モデルでは、長いコンテキストのモデリングに対する需要はますます増加しています。
既存のスパースアテンションメカニズムは効率を高めるが、静的パターンや情報損失といった制限に悩まされることが多い。
本稿では,3つの重要なイノベーションを通じてこれらの課題に対処する,トレーニング可能なダイナミックマスクスパース注意機構を提案する。
- 参考スコア(独自算出の注目度): 11.506985057671015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In large language models, the demand for modeling long contexts is ever-increasing, yet the quadratic complexity of standard self-attention presents a significant bottleneck. While existing sparse attention mechanisms enhance efficiency, they often suffer from limitations such as static patterns and information loss. This paper introduces a Trainable Dynamic Mask Sparse Attention mechanism that addresses these challenges through three key innovations. First, it leverages value vectors to dynamically generate content-aware sparse masks, enabling the model to adaptively identify and focus on crucial information. Second, it implements a position-aware sparse attention computation that effectively skips unnecessary computational regions. Finally, we ensure that the introduced dynamic masks and sparse weights do not obstruct gradients, thereby supporting end-to-end training. This dual-sparsity design allows the model to retain complete information while significantly reducing computational complexity, achieving an excellent balance between efficiency and performance. We validate the performance of Dynamic Mask Attention through comprehensive experiments. Comparative studies demonstrate that our method consistently achieves Pareto dominance across various tasks, including scaling laws, multi-query associative recall, general benchmarks, and needle-in-a-haystack tests, delivering up to 10 times acceleration. These results highlight its capability to effectively balance model efficiency with long-context modeling. Our computational kernel is open-sourced at https://github.com/SmallDoges/flash-dmattn to facilitate further research and application within the community.
- Abstract(参考訳): 大規模言語モデルでは、長いコンテキストのモデリングに対する需要はますます高まっているが、標準的な自己注意の二次的な複雑さは重大なボトルネックとなっている。
既存のスパースアテンションメカニズムは効率を高めるが、静的パターンや情報損失といった制限に悩まされることが多い。
本稿では,3つの重要なイノベーションを通じてこれらの課題に対処する,トレーニング可能なダイナミックマスクスパース注意機構を提案する。
まず、値ベクトルを活用して、コンテンツ対応スパースマスクを動的に生成し、モデルが重要な情報を適応的に識別し、フォーカスできるようにする。
第二に、不要な計算領域を効果的にスキップする位置認識スパースアテンション計算を実装している。
最後に、導入したダイナミックマスクとスパースウェイトが勾配を妨げないようにし、エンドツーエンドのトレーニングをサポートする。
この二重スパーシティ設計により、モデルは完全な情報を保持でき、計算の複雑さを著しく減らし、効率と性能のバランスが良好になる。
総合実験により,動的マスク注意の有効性を検証した。
提案手法は,スケーリング法則,マルチクエリ・アソシエーション・リコール,一般ベンチマーク,ニードル・イン・ア・ヘイスタック・テストなど,様々なタスクにおいて一貫してパレート・アドミナンスを実現し,最大10倍の高速化を実現している。
これらの結果は、長文モデリングとモデル効率を効果的にバランスさせる能力を強調している。
私たちの計算カーネルはhttps://github.com/SmallDoges/flash-dmattnでオープンソース化されています。
関連論文リスト
- Elastic Attention: Test-time Adaptive Sparsity Ratios for Efficient Transformers [42.80120203718226]
本稿では,入力に基づいて全体空間を調整できるElastic Attentionを提案する。
8xA800 GPU上でのトレーニングをわずか12時間以内で行うと、モデルが強い性能と効率的な推論を達成できる。
論文 参考訳(メタデータ) (2026-01-24T08:22:07Z) - MTraining: Distributed Dynamic Sparse Attention for Efficient Ultra-Long Context Training [23.925430484357975]
MTrainingは、超長期のコンテキストを持つ大規模言語モデルをトレーニングするための分散方法論である。
MTrainingは動的スパーストレーニングパターン、バランスの取れたスパースリングアテンション、階層的なスパースリングアテンションを統合している。
MTrainingは、モデルの精度を維持しながら、最大で6倍のトレーニングスループットを達成する。
論文 参考訳(メタデータ) (2025-10-21T17:25:32Z) - Less is More: Empowering GUI Agent with Context-Aware Simplification [62.02157661751793]
我々は,SimpAgentと呼ばれる,効率的かつ効果的なGUIエージェントを構築するためのコンテキスト認識フレームワークを提案する。
上記のコンポーネントにより、SimpAgentは27%のFLOPを削減し、優れたGUIナビゲーション性能を実現する。
論文 参考訳(メタデータ) (2025-07-04T17:37:15Z) - DAM: Dynamic Attention Mask for Long-Context Large Language Model Inference Acceleration [12.172968576254469]
本稿では,アダプティブマスクをアダプティブマップレベルで割り当てる動的スパースアテンション機構を提案する。
コンテキスト認識型アテンション構造を学習することにより、フルアテンションモデルとの高アライメントを実現し、パフォーマンスの低下を最小限に抑える。
このアプローチは、大規模言語モデルの実践的な展開を可能にする、フルアテンションに代わるスケーラブルな代替手段を提供する。
論文 参考訳(メタデータ) (2025-06-06T20:24:36Z) - Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - Dynamic Attention Mechanism in Spatiotemporal Memory Networks for Object Tracking [8.040709469401257]
本研究では,空間的注意重みを解析することにより,注意重みを適応的に調節する動的注意機構を提案する。
目標運動状態に基づいて計算資源を自律的に割り当てる軽量ゲーティングネットワークは、挑戦的なシナリオにおいて高い識別可能性の特徴を優先する。
論文 参考訳(メタデータ) (2025-03-21T00:48:31Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Core Context Aware Transformers for Long Context Language Modeling [50.774702091154204]
高速な長文モデリングのためのCCAアテンションを提案する。
本手法は,学習過程における冗長性を低下させながら,コアコンテキストに自動的に焦点を合わせ,強化する。
提案手法は,既存の大規模言語モデルにおける自己注意モジュールを最小限の微調整コストで置き換えることができる。
論文 参考訳(メタデータ) (2024-12-17T01:54:08Z) - Unsupervised Representation Learning of Complex Time Series for Maneuverability State Identification in Smart Mobility [0.0]
スマートモビリティでは、操縦パターンのような行動の時間的ダイナミクスを提供する上で、MSSは重要な役割を果たす。
本研究では,センサを用いた車両から収集したMSSデータのモデル化に関わる課題に対処することを目的とする。
我々の目標は、スマートモビリティにおける操作状態の特定における2つの異なる教師なし表現学習手法の有効性を検討することである。
論文 参考訳(メタデータ) (2024-08-26T15:16:18Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z) - KSM: Fast Multiple Task Adaption via Kernel-wise Soft Mask Learning [49.77278179376902]
Deep Neural Networks (DNN)は、新しいタスクを学ぶときの以前のタスクに関する知識を忘れることができ、これはtextitcatastrophic forgettingとして知られている。
最近の連続学習手法は、玩具サイズのデータセットにおける破滅的な問題を緩和することができる。
我々は,各タスクに対して,カーネルワイドなハイブリッドな2値マスクと実値のソフトマスクを学習する,textit- Kernel-wise Soft Mask (KSM) と呼ばれる新しいトレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-09-11T21:48:39Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。