論文の概要: Adaptive Multi-Resolution Attention with Linear Complexity
- arxiv url: http://arxiv.org/abs/2108.04962v1
- Date: Tue, 10 Aug 2021 23:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 13:39:37.340442
- Title: Adaptive Multi-Resolution Attention with Linear Complexity
- Title(参考訳): 線形複雑度を考慮した適応型マルチリゾリューションアテンション
- Authors: Yao Zhang, Yunpu Ma, Thomas Seidl, Volker Tresp
- Abstract要約: 本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
- 参考スコア(独自算出の注目度): 18.64163036371161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have improved the state-of-the-art across numerous tasks in
sequence modeling. Besides the quadratic computational and memory complexity
w.r.t the sequence length, the self-attention mechanism only processes
information at the same scale, i.e., all attention heads are in the same
resolution, resulting in the limited power of the Transformer. To remedy this,
we propose a novel and efficient structure named Adaptive Multi-Resolution
Attention (AdaMRA for short), which scales linearly to sequence length in terms
of time and space. Specifically, we leverage a multi-resolution multi-head
attention mechanism, enabling attention heads to capture long-range contextual
information in a coarse-to-fine fashion. Moreover, to capture the potential
relations between query representation and clues of different attention
granularities, we leave the decision of which resolution of attention to use to
query, which further improves the model's capacity compared to vanilla
Transformer. In an effort to reduce complexity, we adopt kernel attention
without degrading the performance. Extensive experiments on several benchmarks
demonstrate the effectiveness and efficiency of our model by achieving a
state-of-the-art performance-efficiency-memory trade-off. To facilitate AdaMRA
utilization by the scientific community, the code implementation will be made
publicly available.
- Abstract(参考訳): トランスフォーマはシーケンスモデリングの様々なタスクで最先端の技術を改善した。
シークエンス長の2次計算とメモリの複雑さの他に、自己認識機構は情報のみを同じスケールで処理する、すなわちすべての注目ヘッドは同じ解像度であり、トランスフォーマーの限られたパワーをもたらす。
そこで本研究では,AdaMRA(Adaptive Multi-Resolution Attention, 略称AdaMRA)という,時間と空間の観点から線形に配列長にスケールする構造を提案する。
具体的には,マルチレゾリューション・マルチヘッド・アテンション機構を活用し,アテンションヘッドが広帯域の文脈情報を粗い方法で捉えられるようにした。
さらに,問合せ表現と異なる注意の手がかりとの潜在的な関係を捉えるために,問合せにどの注意分解能を使用するかという決定を下し,バニラトランスに比べてモデルのキャパシティがさらに向上する。
複雑さを減らすために、パフォーマンスを劣化させることなくカーネルの注意を払っています。
いくつかのベンチマークにおける広範囲な実験は、最先端のパフォーマンス・効率・メモリトレードオフを達成することによって、モデルの有効性と効率を実証する。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
関連論文リスト
- MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution [14.265237560766268]
多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
論文 参考訳(メタデータ) (2024-11-26T08:30:31Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。
提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文 参考訳(メタデータ) (2024-06-12T12:12:38Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - Real-Time Image Segmentation via Hybrid Convolutional-Transformer Architecture Search [49.81353382211113]
マルチヘッド自己認識を高分解能表現CNNに効率的に組み込むという課題に対処する。
本稿では,高解像度機能の利点をフル活用したマルチターゲットマルチブランチ・スーパーネット手法を提案する。
本稿では,Hybrid Convolutional-Transformer Architecture Search (HyCTAS)法を用いて,軽量畳み込み層とメモリ効率のよい自己保持層を最適に組み合わせたモデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T15:47:54Z) - Multi-Hierarchical Surrogate Learning for Structural Dynamical Crash
Simulations Using Graph Convolutional Neural Networks [5.582881461692378]
カルトフレームの一連のサロゲートモデルを構造的に生成する多階層フレームワークを提案する。
マルチスケール現象では、粗いサロゲート上でマクロスケールの特徴が捉えられ、ミクロスケール効果はより微細なサロゲートによって解決される。
我々は、粗い表現上でパラメータ依存の低次元潜在力学を学習するグラフ畳み込みニューラルネットワークに基づくサロゲートを訓練する。
論文 参考訳(メタデータ) (2024-02-14T15:22:59Z) - Correlated Attention in Transformers for Multivariate Time Series [22.542109523780333]
本稿では,特徴量依存を効率的に捕捉し,既存のトランスフォーマーのエンコーダブロックにシームレスに統合できる新しいアテンション機構を提案する。
特に、関連性のある注意は、特徴チャネルを横断して、クエリとキー間の相互共分散行列をラグ値で計算し、サブシリーズレベルで選択的に表現を集約する。
このアーキテクチャは、瞬時だけでなく、ラタグされた相互相関の発見と表現の学習を容易にすると同時に、本質的に時系列の自動相関をキャプチャする。
論文 参考訳(メタデータ) (2023-11-20T17:35:44Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Mega: Moving Average Equipped Gated Attention [150.3124713793503]
メガ (Mega) は、(予備的な)移動平均を備えた単純で理論上は接地された単頭誘導式アテンション機構である。
我々はMegaがトランスフォーマーの変種や最近の状態空間モデルを含む他のシーケンスモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2022-09-21T20:52:17Z) - Rethinking Attention Mechanism in Time Series Classification [6.014777261874646]
我々は、フレキシブル・マルチヘッド・リニア・アテンション(FMLA)を提案することにより、アテンション機構の効率性と性能を向上する。
本稿では,時系列におけるノイズの影響を低減し,FMLAの冗長性を低減できる簡易だが効果的なマスク機構を提案する。
85のUCR2018データセットを用いて、このアルゴリズムを11のよく知られたデータセットと比較し、このアルゴリズムがトップ1の精度で同等の性能を持つことを示す。
論文 参考訳(メタデータ) (2022-07-14T07:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。