Fugu-MT 論文翻訳(概要): Linear Attention via Orthogonal Memory

論文の概要: Linear Attention via Orthogonal Memory

arxiv url: http://arxiv.org/abs/2312.11135v1
Date: Mon, 18 Dec 2023 12:26:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 20:19:16.086313
Title: Linear Attention via Orthogonal Memory
Title（参考訳）: 直交記憶による線形注意
Authors: Jun Zhang, Shuyang Jiang, Jiangtao Feng, Lin Zheng, Lingpeng Kong
Abstract要約: textbfLinear textbfAttention textbfVia textbfOrthogonal memory(shortname)を提案する。 shortnameは線形複雑性を維持しながら高いパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 46.14195464583495
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient attentions have greatly improved the computational efficiency of Transformers. However, most existing linear attention mechanisms suffer from an \emph{efficiency degradation} problem, leading to inefficiencies in causal language modeling and hindering their application in long-range language models. This problem is more pronounced under language modeling with unbounded contexts. In this paper, we propose \textbf{L}inear \textbf{A}ttention \textbf{V}ia \textbf{O}rthogonal memory~(\shortname) to address these limitations, achieving strong performance while maintaining linear complexity. \shortname employs orthogonal decomposition to compress a context into a fixed-size orthogonal memory while effectively minimizing redundancy within the context. Given that orthogonal memory compresses global information, we further dissect the context to amplify fine-grained local information. Additionally, we embed the relative position encoding into \shortname to improve the extrapolation ability. Experimental results show that \shortname greatly improves the efficiency of the causal language model with the best extrapolation performance and outperforms other efficient baselines. Further, we endeavor to employ \shortname for unbounded language modeling and successfully scale the context length to 128K.
Abstract（参考訳）: 効率的な注意がトランスフォーマーの計算効率を大幅に改善した。しかし、既存の線形アテンション機構のほとんどは「emph{efficiency degradation}」問題に悩まされており、因果言語モデリングの非効率性や長距離言語モデルへの応用を妨げる。この問題は、境界のないコンテキストを持つ言語モデルの下でより顕著である。本稿では,これらの制約に対処し,線形複雑性を保ちながら高い性能を実現するために, {textbf{L}inear \textbf{A}ttention \textbf{V}ia \textbf{O}rthogonal memory~(\shortname)を提案する。 \shortnameは直交分解を用いてコンテキストを固定サイズの直交メモリに圧縮し、コンテキスト内の冗長性を効果的に最小化する。直交メモリはグローバルな情報を圧縮するので、より微細なローカル情報を増幅するためにコンテキストを識別する。さらに、相対的な位置エンコーディングを \shortname に組み込んで、外挿能力を向上させる。実験の結果, 'shortname' は最高の外挿性能で因果言語モデルの効率を大幅に改善し, その他の効率的なベースラインよりも優れていた。さらに,非有界言語モデリングに \shortname を用い,文脈長を128Kに拡張する試みを行った。

関連論文リスト

Scaling Linear Attention with Sparse State Expansion [58.161410995744596]
トランスフォーマーアーキテクチャは、2次計算と線形メモリ成長による長期コンテキストシナリオに苦慮している。本稿では,情報分類として状態更新を概念化し,線形注意のための行スパース更新定式化を提案する。次に、スパースフレームワーク内にスパース状態拡張(SSE)を示し、コンテキスト状態を複数のパーティションに拡張する。
論文参考訳（メタデータ） (2025-07-22T13:27:31Z)
Curse of High Dimensionality Issue in Transformer for Long-context Modeling [31.257769500741006]
注意計算において重要でないトークンを集約することにより冗長性を低減するために,textitDynamic Group Attention (DGA)を提案する。その結果,DGAは競争性能を維持しながら計算コストを大幅に削減できることがわかった。
論文参考訳（メタデータ） (2025-05-28T08:34:46Z)
Attention Entropy is a Key Factor: An Analysis of Parallel Context Encoding with Full-attention-based Pre-trained Language Models [49.84163262868945]
大規模言語モデルは、コンテキストモデリングにおける例外的な能力のため、幅広い言語タスクで顕著なパフォーマンスを示している。最も一般的なコンテキストモデリングの方法は、標準的なデコーダのみのトランスフォーマーに見られるように、完全な自己アテンションである。本稿では,コンテキストをサブピースに分割して並列に符号化する並列コンテキスト符号化を提案する。
論文参考訳（メタデータ） (2024-12-21T09:04:51Z)
DRPruning: Efficient Large Language Model Pruning through Distributionally Robust Optimization [61.492590008258986]
大きな言語モデル(LLM)は素晴らしい結果をもたらすが、モデルのサイズと計算コストの増加による課題に直面している。本稿では,分散的にロバストな最適化を取り入れたDRPruningを提案する。
論文参考訳（メタデータ） (2024-11-21T12:02:39Z)
Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-24T09:25:37Z)
CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文参考訳（メタデータ） (2024-06-17T18:34:58Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
SpaceByte: Towards Deleting Tokenization from Large Language Modeling [0.0]
トークン化は、パフォーマンスが大幅に向上するため、大きな言語モデルで広く使用されている。バイトレベルとサブワード自動回帰言語モデリングのパフォーマンスギャップを埋める新しいバイトレベルデコーダアーキテクチャであるSpaceByteを提案する。
論文参考訳（メタデータ） (2024-04-22T17:59:29Z)
Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs [61.40047491337793]
本稿では,大規模言語モデルの制約を克服する新しいトレーニングフリースキームである階層型cOntext MERging(HOMER)を提案する。 HomeRは、長いインプットを管理可能なチャンクに分割する、分別/対数アルゴリズムを使用する。トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。
論文参考訳（メタデータ） (2024-04-16T06:34:08Z)
Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文参考訳（メタデータ） (2024-02-28T19:28:27Z)
Vocabulary-level Memory Efficiency for Language Model Fine-tuning [36.1039389951318]
微調整中,語彙のかなりの割合が未使用であることが判明した。本稿では,メモリ使用量を最小限に抑えるため,この発見を利用したシンプルで効果的な手法を提案する。我々の手法は、より効率的な計算資源の利用を可能にしながら、下流のタスク性能に影響を与えない。
論文参考訳（メタデータ） (2023-09-15T19:00:00Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。 FLATと比較して「単語文字」と「単語」の不要な注意計算を減らすこれにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文参考訳（メタデータ） (2022-05-12T01:55:37Z)
DCT-Former: Efficient Self-Attention with Discrete Cosine Transform [4.622165486890318]
トラスフォルマーアーキテクチャの本質的な制限は、ドット積の注意の計算から生じる。我々のアイデアは、アテンションモジュールの近似を導き出すために、損失の多いデータ圧縮(JPEGアルゴリズムなど)の世界からインスピレーションを得ている。実験の広範なセクションでは,提案手法が同一性能のメモリを消費しにくくする一方で,推定時間を大幅に削減することを示した。
論文参考訳（メタデータ） (2022-03-02T15:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。