論文の概要: Linear Attention via Orthogonal Memory
- arxiv url: http://arxiv.org/abs/2312.11135v1
- Date: Mon, 18 Dec 2023 12:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 20:19:16.086313
- Title: Linear Attention via Orthogonal Memory
- Title(参考訳): 直交記憶による線形注意
- Authors: Jun Zhang, Shuyang Jiang, Jiangtao Feng, Lin Zheng, Lingpeng Kong
- Abstract要約: textbfLinear textbfAttention textbfVia textbfOrthogonal memory(shortname)を提案する。
shortnameは線形複雑性を維持しながら高いパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 46.14195464583495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient attentions have greatly improved the computational efficiency of
Transformers. However, most existing linear attention mechanisms suffer from an
\emph{efficiency degradation} problem, leading to inefficiencies in causal
language modeling and hindering their application in long-range language
models. This problem is more pronounced under language modeling with unbounded
contexts. In this paper, we propose \textbf{L}inear \textbf{A}ttention
\textbf{V}ia \textbf{O}rthogonal memory~(\shortname) to address these
limitations, achieving strong performance while maintaining linear complexity.
\shortname employs orthogonal decomposition to compress a context into a
fixed-size orthogonal memory while effectively minimizing redundancy within the
context. Given that orthogonal memory compresses global information, we further
dissect the context to amplify fine-grained local information. Additionally, we
embed the relative position encoding into \shortname to improve the
extrapolation ability. Experimental results show that \shortname greatly
improves the efficiency of the causal language model with the best
extrapolation performance and outperforms other efficient baselines. Further,
we endeavor to employ \shortname for unbounded language modeling and
successfully scale the context length to 128K.
- Abstract(参考訳): 効率的な注意がトランスフォーマーの計算効率を大幅に改善した。
しかし、既存の線形アテンション機構のほとんどは「emph{efficiency degradation}」問題に悩まされており、因果言語モデリングの非効率性や長距離言語モデルへの応用を妨げる。
この問題は、境界のないコンテキストを持つ言語モデルの下でより顕著である。
本稿では,これらの制約に対処し,線形複雑性を保ちながら高い性能を実現するために, {textbf{L}inear \textbf{A}ttention \textbf{V}ia \textbf{O}rthogonal memory~(\shortname)を提案する。
\shortnameは直交分解を用いてコンテキストを固定サイズの直交メモリに圧縮し、コンテキスト内の冗長性を効果的に最小化する。
直交メモリはグローバルな情報を圧縮するので、より微細なローカル情報を増幅するためにコンテキストを識別する。
さらに、相対的な位置エンコーディングを \shortname に組み込んで、外挿能力を向上させる。
実験の結果, 'shortname' は最高の外挿性能で因果言語モデルの効率を大幅に改善し, その他の効率的なベースラインよりも優れていた。
さらに,非有界言語モデリングに \shortname を用い,文脈長を128Kに拡張する試みを行った。
関連論文リスト
- Simple linear attention language models balance the recall-throughput
tradeoff [40.08746299497935]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Dynamic Context Pruning for Efficient and Interpretable Autoregressive
Transformers [18.963110713461045]
本稿では,モデル表現性を保ちながら文脈情報を動的に生成する手法を提案する。
本手法では,文脈からどの非形式的トークンをドロップできるかを学習可能なメカニズムを用いて決定する。
我々の参照実装は、推論スループットの増大とメモリの節約を最大2ドルまで達成します。
論文 参考訳(メタデータ) (2023-05-25T07:39:41Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Linearizing Transformer with Key-Value Memory Bank [54.83663647680612]
我々は、ソースシーケンスを低次元表現に投影するアプローチであるMemSizerを提案する。
MemSizerは同じ線形時間複雑性を達成するだけでなく、効率的なリカレントスタイルの自己回帰生成も楽しめる。
我々はMemSizerがバニラ変圧器の効率と精度のトレードオフを改善することを実証した。
論文 参考訳(メタデータ) (2022-03-23T18:10:18Z) - DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。
我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。
実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文 参考訳(メタデータ) (2022-03-02T15:25:27Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。