論文の概要: MSWA: Refining Local Attention with Multi-ScaleWindow Attention
- arxiv url: http://arxiv.org/abs/2501.01039v1
- Date: Thu, 02 Jan 2025 03:41:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:16:46.116979
- Title: MSWA: Refining Local Attention with Multi-ScaleWindow Attention
- Title(参考訳): MSWA: マルチスケールWindowアテンションによるローカルアテンションの洗練
- Authors: Yixing Xu, Shivank Nag, Dong Li, Lu Tian, Emad Barsoum,
- Abstract要約: スライディングウィンドウアテンション(SWA)は、固定サイズのローカルコンテキストウインドウにアテンション範囲を制限することでこの問題を解決する。
トランスフォーマーの頭と層に多様なウィンドウサイズを適用したマルチスケールウィンドウアテンション(MSWA)を提案する。
同じ層内のヘッド間で異なるウィンドウサイズを可能にするだけでなく、浅い層から深い層へのウィンドウサイズ割り当てを徐々に増加させ、モデルが異なる長さと距離でコンテキスト情報をキャプチャできるようにする。
- 参考スコア(独自算出の注目度): 14.481768894355522
- License:
- Abstract: Transformer-based LLMs have achieved exceptional performance across a wide range of NLP tasks. However, the standard self-attention mechanism suffers from quadratic time complexity and linearly increased cache size. Sliding window attention (SWA) solves this problem by restricting the attention range to a fixed-size local context window. Nevertheless, SWA employs a uniform window size for each head in each layer, making it inefficient in capturing context of varying scales. To mitigate this limitation, we propose Multi-Scale Window Attention (MSWA) which applies diverse window sizes across heads and layers in the Transformer. It not only allows for different window sizes among heads within the same layer but also progressively increases window size allocation from shallow to deep layers, thus enabling the model to capture contextual information with different lengths and distances. Experimental results on language modeling and common-sense reasoning tasks substantiate that MSWA outperforms traditional local attention in both effectiveness and efficiency.
- Abstract(参考訳): トランスフォーマーベースのLLMは、幅広いNLPタスクで例外的なパフォーマンスを実現している。
しかし、標準的な自己注意機構は2次時間複雑性と線形化キャッシュサイズに悩まされている。
スライディングウィンドウアテンション(SWA)は、固定サイズのローカルコンテキストウインドウにアテンション範囲を制限することでこの問題を解決する。
それでも、SWAは各レイヤの各ヘッドに均一なウィンドウサイズを採用しており、異なるスケールのコンテキストをキャプチャする上で非効率である。
この制限を緩和するために、トランスフォーマーの頭や層に多様なウィンドウサイズを適用したマルチスケールウィンドウ注意(MSWA)を提案する。
同じ層内のヘッド間で異なるウィンドウサイズを可能にするだけでなく、浅い層から深い層へのウィンドウサイズ割り当てを徐々に増加させ、モデルが異なる長さと距離でコンテキスト情報をキャプチャできるようにする。
言語モデリングおよび常識推論タスクの実験結果は、MSWAが従来の局所的注意力よりも効率と効率の両方で優れていることを裏付けるものである。
関連論文リスト
- AmoebaLLM: Constructing Any-Shape Large Language Models for Efficient and Instant Deployment [13.977849745488339]
AmoebaLLMは任意の形状の大規模言語モデルの即時導出を可能にする新しいフレームワークである。
AmoebaLLMは、様々なプラットフォームやアプリケーションに適した迅速なデプロイメントを著しく促進する。
論文 参考訳(メタデータ) (2024-11-15T22:02:28Z) - LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - Multi-Scale Representations by Varying Window Attention for Semantic Segmentation [10.549932900057462]
これらの問題に対処するために、新しいマルチスケール学習者、可変ウィンドウアテンション(VWA)を提示する。
性能を損なうことなく、余剰コストをゼロにするための単純だが専門的な再スケーリング戦略を提案する。
また,マルチスケールデコーダであるVWFormerを導入し,セマンティックセグメンテーションのためのマルチスケール表現を改善する。
論文 参考訳(メタデータ) (2024-04-25T12:35:27Z) - Masked Autoencoders with Multi-Window Local-Global Attention Are Better
Audio Learners [17.747301325787618]
MW-MAE (Multi-Window Masked Autoencoder) にはMW-MHA (Multi-Window Multi-Head Attention) モジュールが搭載されている。
MW-MAEは、全体的なパフォーマンスにおいて標準MAEより一貫して優れ、より汎用的なオーディオ表現を学ぶ。
論文 参考訳(メタデータ) (2023-06-01T11:20:59Z) - DilateFormer: Multi-Scale Dilated Transformer for Visual Recognition [62.95223898214866]
我々は,視覚変換器の有効性を探究し,参加する受容領域の計算複雑性とサイズとのトレードオフを追求する。
ピラミッドアーキテクチャを用いて,MSDAブロックを低レベルに積み重ねたマルチスケールDilated Transformer (DilateFormer) と,高レベルにグローバルなマルチヘッド自己保持ブロックを構築する。
実験の結果,DilateFormerは様々な視覚タスクで最先端のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-02-03T14:59:31Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - VSA: Learning Varied-Size Window Attention in Vision Transformers [76.35955924137986]
データから適応的なウィンドウ構成を学習するためのtextbfVaried-textbfSize Window textbfAttention (VSA)を提案する。
デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置を予測するためにウィンドウ回帰モジュールを使用する。
論文 参考訳(メタデータ) (2022-04-18T17:56:07Z) - MixFormer: Mixing Features across Windows and Dimensions [68.86393312123168]
ローカルウインドウの自己注意は視覚タスクにおいて顕著に機能するが、限定的な受容野と弱いモデリング能力の問題に悩まされている。
これは主に、オーバーラップされていないウィンドウ内で自己注意を行い、チャネル次元に重みを共有するためである。
局所窓の自己アテンションと深度ワイドの畳み込みを並列設計で組み合わせ, クロスウィンドウ接続をモデル化し, 受容場を拡大する。
論文 参考訳(メタデータ) (2022-04-06T03:13:50Z) - Beyond Fixation: Dynamic Window Visual Transformer [19.982593341611796]
我々はDW-ViT(Dynamic Window Vision Transformer)という新しい手法を提案する。
DW-ViTでは、異なる大きさのウィンドウを異なるウィンドウ・マルチヘッド・セルフアテンションの異なるヘッドグループに割り当てることで、マルチスケール情報を得る。
DW-ViTは優れたスケーラビリティを示し、任意のウィンドウベースの視覚変換器に簡単に挿入できる。
論文 参考訳(メタデータ) (2022-03-24T05:38:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。