Fugu-MT 論文翻訳(概要): DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention

論文の概要: DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention

arxiv url: http://arxiv.org/abs/2211.16368v1
Date: Thu, 24 Nov 2022 03:06:36 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-04 13:57:37.329844
Title: DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention
Title（参考訳）: DBA:動的バイリニア低ランクアテンションを有する高効率変圧器
Authors: Bosheng Qin, Juncheng Li, Siliang Tang, Yueting Zhuang
Abstract要約: 動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
参考スコア（独自算出の注目度）: 53.02648818164273
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many studies have been conducted to improve the efficiency of Transformer from quadric to linear. Among them, the low-rank-based methods aim to learn the projection matrices to compress the sequence length. However, the projection matrices are fixed once they have been learned, which compress sequence length with dedicated coefficients for tokens in the same position. Adopting such input-invariant projections ignores the fact that the most informative part of a sequence varies from sequence to sequence, thus failing to preserve the most useful information that lies in varied positions. In addition, previous efficient Transformers only focus on the influence of sequence length while neglecting the effect of hidden state dimension. To address the aforementioned problems, we present an efficient yet effective attention mechanism, namely the Dynamic Bilinear Low-Rank Attention (DBA), which compresses the sequence length by input-sensitive dynamic projection matrices and achieves linear time and space complexity by jointly optimizing the sequence length and hidden state dimension while maintaining state-of-the-art performance. Specifically, we first theoretically demonstrate that the sequence length can be compressed non-destructively from a novel perspective of information theory, with compression matrices dynamically determined by the input sequence. Furthermore, we show that the hidden state dimension can be approximated by extending the Johnson-Lindenstrauss lemma, optimizing the attention in bilinear form. Theoretical analysis shows that DBA is proficient in capturing high-order relations in cross-attention problems. Experiments over tasks with diverse sequence length conditions show that DBA achieves state-of-the-art performance compared with various strong baselines while maintaining less memory consumption with higher speed.
Abstract（参考訳）: トランスフォーマーの効率を2次から線形に向上するために多くの研究がなされている。その中でも低ランク法は,投影行列を学習して列長を圧縮することを目的としている。しかし、射影行列は一度学習すると固定され、同じ位置にあるトークンに対して専用の係数で列長を圧縮する。このような入力不変射影の採用は、シーケンスの最も有益な部分がシーケンスごとに異なるという事実を無視し、したがって、様々な位置にある最も有用な情報を保存できない。さらに、従来の効率的なトランスフォーマーは、隠れ状態次元の影響を無視しながら、シーケンス長の影響にのみ焦点をあてる。以上の問題に対処するため,入力感度の動的プロジェクション行列によってシーケンス長を圧縮し,最先端性能を維持しつつシーケンス長と隠れ状態次元を協調的に最適化し,線形時間と空間の複雑さを実現する動的双線形低ランク注意機構(DBA)を提案する。具体的には, 入力列によって動的に決定される圧縮行列を用いて, 新たな情報理論の観点から, シーケンス長を非破壊的に圧縮できることを示す。さらに、ジョンソン-リンデンシュトラウス補題を拡張し、双線型形式の注意を最適化することで、隠れ状態次元を近似できることを示す。理論的解析により、DBAはクロスアテンション問題における高次関係を捉えるのに熟練していることが示された。様々なシーケンス長条件のタスクに対する実験により、DBAは、より高速なメモリ消費を抑えながら、様々な強力なベースラインと比較して最先端のパフォーマンスを達成することが示された。

関連論文リスト

Spectral Compression Transformer with Line Pose Graph for Monocular 3D Human Pose Estimation [1.8999296421549172]
本稿では,SCT(Spectral Compression Transformer)を導入し,シーケンス長を削減し,計算を高速化する。 LPGは、入力された2D関節位置を補完する骨格位置情報を生成する。本モデルでは,計算効率を向上し,最先端の性能を実現する。
論文参考訳（メタデータ） (2025-05-27T15:08:03Z)
Low-Bit Integerization of Vision Transformers using Operand Reordering for Efficient Hardware [0.7136205674624813]
計算グラフを解析し,演算再順序付けに基づく整数化プロセスを提案する。これにより、量子化入力を直接処理することで、整数化行列乗法と線形加群が実現される。実験結果から, 線形層と行列乗算のPE当たりの消費電力は, 低ビット推論により減少することがわかった。
論文参考訳（メタデータ） (2025-04-11T16:09:54Z)
Reweighted Time-Evolving Block Decimation for Improved Quantum Dynamics Simulations [0.0]
1次元混合量子状態の時間ダイナミクスをシミュレートするための時間進化ブロックデシメーション (TEBD) アルゴリズムの単純かつ重要な改良を導入する。本稿では, トランケーションにおいて, 高い期待値を$gamma-n$の係数で優先順位付けする再重み付きTEBDアルゴリズムを提案する。この単純な修正により、rTEBD は MPDO の TEBD 時間依存シミュレーションよりも大幅に正確になり、MPS を用いた TEBD よりもよく、時には良くなる。
論文参考訳（メタデータ） (2024-12-11T19:01:00Z)
LOCAL: Learning with Orientation Matrix to Infer Causal Structure from Time Series Data [13.390666123493409]
LOCALは動的因果構造を復元するための効率的で実装が容易で制約のない手法である。 ACMLは学習可能な優先度ベクトルとGumbel-Sigmoid関数を用いて因果マスクを生成する。 DGPLは因果学習を分解された行列生成物に変換し、高次元データの動的因果構造をキャプチャする。
論文参考訳（メタデータ） (2024-10-25T10:48:41Z)
LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。 LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文参考訳（メタデータ） (2024-04-17T08:26:34Z)
HyperAttention: Long-context Attention in Near-Linear Time [78.33061530066185]
本稿では,長期的文脈の複雑さの増大に伴う計算課題に対処するため,HyperAttentionという近似的な注意機構を提案する。実証的には、大規模なエントリを特定するためにLocality Sensitive Hashing(LSH)を使用して、HyperAttentionは既存のメソッドよりも優れています。各種長文長データセットにおけるHyperAttentionの実証的性能を検証した。
論文参考訳（メタデータ） (2023-10-09T17:05:25Z)
Triformer: Triangular, Variable-Specific Attentions for Long Sequence Multivariate Time Series Forecasting--Full Version [50.43914511877446]
本稿では,高い効率と精度を確保するために,三角形,可変特性に着目した注意点を提案する。我々はTriformerが精度と効率の両方で最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2022-04-28T20:41:49Z)
Sketching as a Tool for Understanding and Accelerating Self-attention for Long Sequences [52.6022911513076]
トランスフォーマーベースのモデルは、自己アテンションモジュールの二次空間と時間的複雑さのために、長いシーケンスを処理するのに効率的ではない。我々はLinformerとInformerを提案し、低次元投影と行選択により2次複雑性を線形(モジュラー対数因子)に還元する。理論的解析に基づいて,Skeinformerを提案することにより,自己注意の促進と,自己注意への行列近似の精度の向上を図ることができる。
論文参考訳（メタデータ） (2021-12-10T06:58:05Z)
Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting [25.417560221400347]
長周期時系列予測(LSTF)は高い予測能力を必要とする。最近の研究は、予測能力を高めるトランスフォーマーの可能性を示しています。我々は3つの特徴を有するlstf用効率的なトランスフォーマーモデル,informerを設計した。
論文参考訳（メタデータ） (2020-12-14T11:43:09Z)
Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文参考訳（メタデータ） (2020-03-30T08:40:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。