論文の概要: DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention
- arxiv url: http://arxiv.org/abs/2211.16368v1
- Date: Thu, 24 Nov 2022 03:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 13:57:37.329844
- Title: DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention
- Title(参考訳): DBA:動的バイリニア低ランクアテンションを有する高効率変圧器
- Authors: Bosheng Qin, Juncheng Li, Siliang Tang, Yueting Zhuang
- Abstract要約: 動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 53.02648818164273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have been conducted to improve the efficiency of Transformer
from quadric to linear. Among them, the low-rank-based methods aim to learn the
projection matrices to compress the sequence length. However, the projection
matrices are fixed once they have been learned, which compress sequence length
with dedicated coefficients for tokens in the same position. Adopting such
input-invariant projections ignores the fact that the most informative part of
a sequence varies from sequence to sequence, thus failing to preserve the most
useful information that lies in varied positions. In addition, previous
efficient Transformers only focus on the influence of sequence length while
neglecting the effect of hidden state dimension. To address the aforementioned
problems, we present an efficient yet effective attention mechanism, namely the
Dynamic Bilinear Low-Rank Attention (DBA), which compresses the sequence length
by input-sensitive dynamic projection matrices and achieves linear time and
space complexity by jointly optimizing the sequence length and hidden state
dimension while maintaining state-of-the-art performance. Specifically, we
first theoretically demonstrate that the sequence length can be compressed
non-destructively from a novel perspective of information theory, with
compression matrices dynamically determined by the input sequence. Furthermore,
we show that the hidden state dimension can be approximated by extending the
Johnson-Lindenstrauss lemma, optimizing the attention in bilinear form.
Theoretical analysis shows that DBA is proficient in capturing high-order
relations in cross-attention problems. Experiments over tasks with diverse
sequence length conditions show that DBA achieves state-of-the-art performance
compared with various strong baselines while maintaining less memory
consumption with higher speed.
- Abstract(参考訳): トランスフォーマーの効率を2次から線形に向上するために多くの研究がなされている。
その中でも低ランク法は,投影行列を学習して列長を圧縮することを目的としている。
しかし、射影行列は一度学習すると固定され、同じ位置にあるトークンに対して専用の係数で列長を圧縮する。
このような入力不変射影の採用は、シーケンスの最も有益な部分がシーケンスごとに異なるという事実を無視し、したがって、様々な位置にある最も有用な情報を保存できない。
さらに、従来の効率的なトランスフォーマーは、隠れ状態次元の影響を無視しながら、シーケンス長の影響にのみ焦点をあてる。
以上の問題に対処するため,入力感度の動的プロジェクション行列によってシーケンス長を圧縮し,最先端性能を維持しつつシーケンス長と隠れ状態次元を協調的に最適化し,線形時間と空間の複雑さを実現する動的双線形低ランク注意機構(DBA)を提案する。
具体的には, 入力列によって動的に決定される圧縮行列を用いて, 新たな情報理論の観点から, シーケンス長を非破壊的に圧縮できることを示す。
さらに、ジョンソン-リンデンシュトラウス補題を拡張し、双線型形式の注意を最適化することで、隠れ状態次元を近似できることを示す。
理論的解析により、DBAはクロスアテンション問題における高次関係を捉えるのに熟練していることが示された。
様々なシーケンス長条件のタスクに対する実験により、DBAは、より高速なメモリ消費を抑えながら、様々な強力なベースラインと比較して最先端のパフォーマンスを達成することが示された。
関連論文リスト
- Reweighted Time-Evolving Block Decimation for Improved Quantum Dynamics Simulations [0.0]
1次元混合量子状態の時間ダイナミクスをシミュレートするための時間進化ブロックデシメーション (TEBD) アルゴリズムの単純かつ重要な改良を導入する。
本稿では, トランケーションにおいて, 高い期待値を$gamma-n$の係数で優先順位付けする再重み付きTEBDアルゴリズムを提案する。
この単純な修正により、rTEBD は MPDO の TEBD 時間依存シミュレーションよりも大幅に正確になり、MPS を用いた TEBD よりもよく、時には良くなる。
論文 参考訳(メタデータ) (2024-12-11T19:01:00Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z) - HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Triformer: Triangular, Variable-Specific Attentions for Long Sequence
Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。
我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-04-28T20:41:49Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。