Fugu-MT 論文翻訳(概要): Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

論文の概要: Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention

arxiv url: http://arxiv.org/abs/2405.17381v1
Date: Mon, 27 May 2024 17:38:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-28 14:14:13.162903
Title: Various Lengths, Constant Speed: Efficient Language Modeling with Lightning Attention
Title（参考訳）: 様々な長さ、一定速度:雷の注意を伴う効率的な言語モデリング
Authors: Zhen Qin, Weigao Sun, Dong Li, Xuyang Shen, Weixuan Sun, Yiran Zhong,
Abstract要約: 固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。
参考スコア（独自算出の注目度）: 19.618556742380086
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present Lightning Attention, the first linear attention implementation that maintains a constant training speed for various sequence lengths under fixed memory consumption. Due to the issue with cumulative summation operations (cumsum), previous linear attention implementations cannot achieve their theoretical advantage in a casual setting. However, this issue can be effectively solved by utilizing different attention calculation strategies to compute the different parts of attention. Specifically, we split the attention calculation into intra-blocks and inter-blocks and use conventional attention computation for intra-blocks and linear attention kernel tricks for inter-blocks. This eliminates the need for cumsum in the linear attention calculation. Furthermore, a tiling technique is adopted through both forward and backward procedures to take full advantage of the GPU hardware. To enhance accuracy while preserving efficacy, we introduce TransNormerLLM (TNL), a new architecture that is tailored to our lightning attention. We conduct rigorous testing on standard and self-collected datasets with varying model sizes and sequence lengths. TNL is notably more efficient than other language models. In addition, benchmark results indicate that TNL performs on par with state-of-the-art LLMs utilizing conventional transformer structures. The source code is released at github.com/OpenNLPLab/TransnormerLLM.
Abstract（参考訳）: 固定メモリ使用時の各種シーケンス長のトレーニング速度を一定に維持する最初の線形アテンション実装であるLightning Attentionを提案する。累積和演算 (cumsum) の問題により, 従来の線形アテンション実装では, カジュアルな設定では理論的優位性は得られない。しかし、この問題は、異なる注意計算戦略を利用して、異なる注意部分を計算することで効果的に解決できる。具体的には、アテンション計算をブロック内とブロック間に分割し、従来のアテンション計算をブロック内とブロック間を線形アテンションカーネルのトリックに使用した。これにより、線形注意計算における累積の必要がなくなる。さらに、GPUハードウェアを最大限に活用するために、前方と後方の両方の手順を通じてタイリング技術が採用されている。有効性を保ちながら精度を高めるために,我々の雷の注意に合わせた新しいアーキテクチャであるTransNormerLLM(TNL)を導入する。モデルのサイズやシーケンス長の異なる標準および自己コンパイルされたデータセットに対して厳密なテストを行う。 TNLは他の言語モデルよりも特に効率的である。さらに,TNLは従来の変圧器構造を用いて,最先端のLLMと同等に動作することを示す。ソースコードはgithub.com/OpenNLPLab/TransnormerLLMで公開されている。

関連論文リスト

LUNA: Linear Universal Neural Attention with Generalization Guarantees [27.74721677870656]
textscLunaは、計算パリティの下で効率的なトランスフォーマーの間で最先端の平均精度を達成する。 textscLunaはポストホック変換にも優れており、細調整されたBERTとViT-B/16チェックポイントでソフトマックスを置き換える。
論文参考訳（メタデータ） (2025-12-08T21:49:55Z)
Higher-order Linear Attention [59.92962330635185]
スケールされたドット積の注意の二次コストは、自己回帰言語モデルを長いコンテキストにスケールするための中心的な障害である。本稿では,高次線形注意(Higher-order Linear Attention, HLA)を提案する。
論文参考訳（メタデータ） (2025-10-31T07:54:37Z)
Customizing the Inductive Biases of Softmax Attention using Structured Matrices [46.30740502186753]
注意の中心となるコンポーネントはスコアリング関数で、入力を低次元のクエリとキーに変換する。 BTT(Block-Train)やMLR(Multi-Level Low Rank)など,高いランクを持つ計算効率の高い構造化行列に基づく新たなスコアリング関数を提案する。 MLRに基づくアテンション法は,標準アテンションとスライディングウインドウアテンションの変種に比較して,スケーリング法を改良する。
論文参考訳（メタデータ） (2025-09-09T17:50:58Z)
Tiled Flash Linear Attention: More Efficient Linear RNN and xLSTM Kernels [14.756974816917584]
ゲーティングを備えた線形RNNは、最近、言語モデリングにおけるトランスフォーマーと比較して、競合する性能を示した。本稿では,線形RNNのための新しいカーネルアルゴリズムである Tiled Flash Linear Attention (TFLA) について述べる。高速化ベンチマークでは、TFLAに基づく新しいmLSTMカーネルが、高度に最適化されたFlashアテンション、線形アテンション、およびMambaカーネルより優れていることを示す。
論文参考訳（メタデータ） (2025-03-18T16:09:47Z)
Continual Low-Rank Scaled Dot-product Attention [67.11704350478475]
我々は,連続的推論に適したNystr"om近似に基づくスケールド・プロダクツ・アテンションの新しい定式化を導入する。オンライン音声分類およびオンライン行動検出タスクの実験において、提案した連続的スケールド・プロダクト・アテンションは、最大3桁の操作数を削減できる。
論文参考訳（メタデータ） (2024-12-04T11:05:01Z)
SeerAttention: Learning Intrinsic Sparse Attention in Your LLMs [10.702409298302547]
SeerAttentionは、大規模言語モデル自体からブロックレベルの注意空間を学習する。 Mixture of Experts (MoE)のゲーティング機構にインスパイアされたSeerAttentionは、学習可能なゲートで従来の注意を増進する。評価の結果,SeerAttention は長文プリフィルの精度向上と低レイテンシ化を実現していることがわかった。
論文参考訳（メタデータ） (2024-10-17T07:07:09Z)
Tree Attention: Topology-aware Decoding for Long-Context Attention on GPU clusters [10.403248386029407]
自己アテンションは、シーケンス長の複雑さのため、重要な計算ボトルネックである。本研究では、勾配が自己アテンションブロックを計算するスカラーエネルギー関数を導出する。我々の定式化により,木伐採により,配列軸を横断する還元を効率的に並列に計算できることが判明した。
論文参考訳（メタデータ） (2024-08-07T21:16:55Z)
Short-Long Convolutions Help Hardware-Efficient Linear Attention to Focus on Long Sequences [60.489682735061415]
本稿では,状態空間モデルを短時間の畳み込みに置き換えたCHELAを提案する。提案手法の有効性を示すために,Long Range Arenaベンチマークと言語モデリングタスクについて実験を行った。
論文参考訳（メタデータ） (2024-06-12T12:12:38Z)
Attention as an RNN [66.5420926480473]
我々は,そのテキストマンディ・ツー・ワンのRNN出力を効率的に計算できる特別なリカレントニューラルネットワーク(RNN)として注目されることを示す。本稿では,並列プレフィックススキャンアルゴリズムを用いて,注目のテキストマンディ・ツー・マニーRNN出力を効率よく計算する手法を提案する。 Aarensは、一般的な4つのシーケンシャルな問題設定に散らばる38ドルのデータセットで、Transformersに匹敵するパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-22T19:45:01Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
Linear Attention Sequence Parallelism [33.06590170649837]
線形アテンションに基づく言語モデルに適した,効率的なシーケンス並列 (SP) 手法であるLinear Attention Sequence Parallel (LASP) を導入する。 LASP は,SP の通信オーバーヘッドを著しく低減する,線形注意による右産物カーネルのトリックを生かしている。 LASPは1Bモデル上で128のA100 80G GPUを使用してシーケンス長を最大4096Kまでスケールする。
論文参考訳（メタデータ） (2024-04-03T17:33:21Z)
Lightning Attention-2: A Free Lunch for Handling Unlimited Sequence Lengths in Large Language Models [20.78813311569383]
本稿では、線形アテンションによる理論計算の利点を実現するための最初の線形アテンション実装であるLightning Attentionを紹介する。具体的には、従来のアテンション機構をブロック内に適用し、インターブロックに対して線形アテンションカーネルのトリックを適用する。異なるモデルサイズとシーケンス長について様々な実験を行った。
論文参考訳（メタデータ） (2024-01-09T16:27:28Z)
Gated Linear Attention Transformers with Hardware-Efficient Training [60.670102007737476]
本研究は、並列化性に対してメモリ移動をオフにする線形注意のためのハードウェア効率のアルゴリズムについて述べる。次に、このアルゴリズムを、データ依存ゲートを用いたより表現力豊かな線形アテンションに一般化する。変圧器の標準アテンション層に代えて使用すると、結果として生じるゲート状リニアアテンショントランスが競合的に動作することが分かる。
論文参考訳（メタデータ） (2023-12-11T18:51:59Z)
TransNormerLLM: A Faster and Better Large Language Model with Improved TransNormer [34.790081960470964]
最初の線形注意に基づくLarge Language Model(LLM)であるTransNormerLLMを提案する。我々は, 位置埋め込み, 線形注意加速度, ゲーティング機構, テンソル正規化, 推論加速度, 安定化など, 高度な修正を行う。自己収集コーパス上に385M, 1B, 7Bの大きさの列車モデルとアブリケーションを用いてモデル設計を検証する。
論文参考訳（メタデータ） (2023-07-27T16:45:33Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention [53.02648818164273]
動的双線形低ランク注意(DBA)という,効率的かつ効果的な注意機構を提案する。 DBAは入力感度の動的射影行列によってシーケンス長を圧縮し、線形時間と空間の複雑さを実現する。様々なシーケンス長条件のタスクに対する実験は、DBAが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2022-11-24T03:06:36Z)
ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。 ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文参考訳（メタデータ） (2021-10-06T03:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。