論文の概要: DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention
- arxiv url: http://arxiv.org/abs/2211.16368v1
- Date: Thu, 24 Nov 2022 03:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 13:57:37.329844
- Title: DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention
- Title(参考訳): DBA:動的バイリニア低ランクアテンションを有する高効率変圧器
- Authors: Bosheng Qin, Juncheng Li, Siliang Tang, Yueting Zhuang
- Abstract要約: 動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。
DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。
様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 53.02648818164273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many studies have been conducted to improve the efficiency of Transformer
from quadric to linear. Among them, the low-rank-based methods aim to learn the
projection matrices to compress the sequence length. However, the projection
matrices are fixed once they have been learned, which compress sequence length
with dedicated coefficients for tokens in the same position. Adopting such
input-invariant projections ignores the fact that the most informative part of
a sequence varies from sequence to sequence, thus failing to preserve the most
useful information that lies in varied positions. In addition, previous
efficient Transformers only focus on the influence of sequence length while
neglecting the effect of hidden state dimension. To address the aforementioned
problems, we present an efficient yet effective attention mechanism, namely the
Dynamic Bilinear Low-Rank Attention (DBA), which compresses the sequence length
by input-sensitive dynamic projection matrices and achieves linear time and
space complexity by jointly optimizing the sequence length and hidden state
dimension while maintaining state-of-the-art performance. Specifically, we
first theoretically demonstrate that the sequence length can be compressed
non-destructively from a novel perspective of information theory, with
compression matrices dynamically determined by the input sequence. Furthermore,
we show that the hidden state dimension can be approximated by extending the
Johnson-Lindenstrauss lemma, optimizing the attention in bilinear form.
Theoretical analysis shows that DBA is proficient in capturing high-order
relations in cross-attention problems. Experiments over tasks with diverse
sequence length conditions show that DBA achieves state-of-the-art performance
compared with various strong baselines while maintaining less memory
consumption with higher speed.
- Abstract(参考訳): トランスフォーマーの効率を2次から線形に向上するために多くの研究がなされている。
その中でも低ランク法は,投影行列を学習して列長を圧縮することを目的としている。
しかし、射影行列は一度学習すると固定され、同じ位置にあるトークンに対して専用の係数で列長を圧縮する。
このような入力不変射影の採用は、シーケンスの最も有益な部分がシーケンスごとに異なるという事実を無視し、したがって、様々な位置にある最も有用な情報を保存できない。
さらに、従来の効率的なトランスフォーマーは、隠れ状態次元の影響を無視しながら、シーケンス長の影響にのみ焦点をあてる。
以上の問題に対処するため,入力感度の動的プロジェクション行列によってシーケンス長を圧縮し,最先端性能を維持しつつシーケンス長と隠れ状態次元を協調的に最適化し,線形時間と空間の複雑さを実現する動的双線形低ランク注意機構(DBA)を提案する。
具体的には, 入力列によって動的に決定される圧縮行列を用いて, 新たな情報理論の観点から, シーケンス長を非破壊的に圧縮できることを示す。
さらに、ジョンソン-リンデンシュトラウス補題を拡張し、双線型形式の注意を最適化することで、隠れ状態次元を近似できることを示す。
理論的解析により、DBAはクロスアテンション問題における高次関係を捉えるのに熟練していることが示された。
様々なシーケンス長条件のタスクに対する実験により、DBAは、より高速なメモリ消費を抑えながら、様々な強力なベースラインと比較して最先端のパフォーマンスを達成することが示された。
関連論文リスト
- HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。
実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。
各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文 参考訳(メタデータ) (2023-10-09T17:05:25Z) - Blockwise Parallel Transformer for Large Context Models [70.97386897478238]
Blockwise Parallel Transformer (BPT) は、メモリコストを最小限に抑えるために、自己アテンションとフィードフォワードネットワーク融合のブロックワイズ計算である。
メモリ効率を維持しながら、長い入力シーケンスを処理することにより、BPTはバニラ変換器の32倍、以前のメモリ効率の4倍のトレーニングシーケンスを可能にする。
論文 参考訳(メタデータ) (2023-05-30T19:25:51Z) - Toeplitz Neural Network for Sequence Modeling [46.04964190407727]
Toeplitz行列ベクトル生成のトリックにより、シーケンスモデリングの時間的複雑さを減らし、ログ線形化することを示す。
パラメータの固定予算で相対位置係数を生成するために、相対位置エンコーダと呼ばれる軽量サブネットワークを提案する。
512 tokenのシーケンスでトレーニングされているにもかかわらず、我々のモデルは、一貫した性能で最大14Kトークンの入力シーケンス長を推定することができる。
論文 参考訳(メタデータ) (2023-05-08T14:49:01Z) - Triformer: Triangular, Variable-Specific Attentions for Long Sequence
Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。
我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-04-28T20:41:49Z) - Sketching as a Tool for Understanding and Accelerating Self-attention
for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。
我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。
理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文 参考訳(メタデータ) (2021-12-10T06:58:05Z) - Informer: Beyond Efficient Transformer for Long Sequence Time-Series
Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。
最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。
我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文 参考訳(メタデータ) (2020-12-14T11:43:09Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。