論文の概要: Simple linear attention language models balance the recall-throughput tradeoff
- arxiv url: http://arxiv.org/abs/2402.18668v2
- Date: Fri, 07 Mar 2025 18:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:24:14.597888
- Title: Simple linear attention language models balance the recall-throughput tradeoff
- Title(参考訳): 単純な線形アテンション言語モデルはリコール・アウトプットトレードオフのバランスをとる
- Authors: Simran Arora, Sabri Eyuboglu, Michael Zhang, Aman Timalsina, Silas Alberti, Dylan Zinsley, James Zou, Atri Rudra, Christopher Ré,
- Abstract要約: 線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
- 参考スコア(独自算出の注目度): 60.06020449520365
- License:
- Abstract: Recent work has shown that attention-based language models excel at recall, the ability to ground generations in tokens previously seen in context. However, the efficiency of attention-based models is bottle-necked during inference by the KV-cache's aggressive memory consumption. In this work, we explore whether we can improve language model efficiency (e.g. by reducing memory consumption) without compromising on recall. By applying experiments and theory to a broad set of architectures, we identify a key tradeoff between a model's state size and recall ability. We show that efficient alternatives to attention (e.g. H3, Mamba, RWKV) maintain a fixed-size recurrent state, but struggle at recall. We propose BASED a simple architecture combining linear and sliding window attention. By varying BASED window size and linear attention feature dimension, we can dial the state size and traverse the pareto frontier of the recall-memory tradeoff curve, recovering the full quality of attention on one end and the small state size of attention-alternatives on the other. We train language models up to 1.3b parameters and show that BASED matches the strongest sub-quadratic models (e.g. Mamba) in perplexity and outperforms them on real-world recall-intensive tasks by 6.22 accuracy points. Implementations of linear attention are often less efficient than optimized standard attention implementations. To make BASED competitive, we develop IO-aware algorithms that enable 24x higher throughput on language generation than FlashAttention-2, when generating 1024 tokens using 1.3b parameter models. Code for this work is provided at: https://github.com/HazyResearch/based.
- Abstract(参考訳): 最近の研究は、注意に基づく言語モデルがリコール時に優れており、以前に文脈で見られたトークンで世代をグラウンドできることを示している。
しかしながら、注意に基づくモデルの効率は、KV-cacheの攻撃的なメモリ消費による推論中にボトルネッキングされる。
本研究では,リコールを伴わずに,言語モデルの効率性(例えば,メモリ消費を減らして)を向上させることができるかを検討する。
実験と理論を幅広いアーキテクチャに適用することにより、モデルの状態サイズとリコール能力との間の重要なトレードオフを特定する。
注意代替(例えばH3,Mamba,RWKV)が一定サイズのリカレント状態を維持しているが,リコールに苦慮していることを示す。
線形およびすべり窓の注意を結合したシンプルなアーキテクチャBASEDを提案する。
BASEDウィンドウサイズと線形アテンション特徴次元を変化させることで、リコールメモリトレードオフ曲線のパレートフロンティアをダイヤルし、一方の端の注意の完全品質と他方の注目代替品の小さな状態サイズを回復することができる。
我々は言語モデルを1.3bパラメータまで訓練し、BASEDが難易度において最強のサブクワッドラティックモデル(例えばMamba)と一致することを示す。
線形注意の実装は、しばしば最適化された標準注意の実装よりも効率的ではない。
BASEDを競合させるため,1.3bパラメータモデルを用いて1024トークンを生成する場合,言語生成においてFlashAttention-2よりも24倍高いスループットを実現するIO認識アルゴリズムを開発した。
この作業のコードは、https://github.com/HazyResearch/based.comで提供されている。
関連論文リスト
- Titans: Learning to Memorize at Test Time [20.12643072017223]
歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。
このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。
我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
論文 参考訳(メタデータ) (2024-12-31T22:32:03Z) - CodeArt: Better Code Models by Attention Regularization When Symbols Are
Lacking [12.458135956476639]
トランスフォーマーベースのコードモデルは、多くのソフトウェアエンジニアリングタスクにおいて素晴らしいパフォーマンスを持つ。
しかし、それらの効果は、シンボルが欠落しているか、情報がないときに低下する。
本稿では,シンボルが不足している場合の一般符号モデルの事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T05:13:22Z) - Zoology: Measuring and Improving Recall in Efficient Language Models [42.159338928861864]
私たちは17の注意と"ゲート・コンボリューション"言語モデルをトレーニングします。
ゲート畳み込みアーキテクチャは、パイル上の最大2.1パープレキシティポイントでまだ注目されていない。
マルチクエリ・アソシエイト・リコール(MQAR)と呼ばれるタスクの新たな形式化を開発し、実際の言語をよりよく反映する。
論文 参考訳(メタデータ) (2023-12-08T09:44:25Z) - Efficient Streaming Language Models with Attention Sinks [72.20260088848987]
StreamingLLMは、大規模言語モデルが微調整なしで無限のシーケンス長に一般化できる効率的なフレームワークである。
StreamingLLMはLlama-2, MPT, Falcon, Pythiaを最大400万のトークンで安定かつ効率的な言語モデリングを実現できることを示す。
論文 参考訳(メタデータ) (2023-09-29T17:59:56Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - ABC: Attention with Bounded-memory Control [67.40631793251997]
我々は,有界メモリ制御 (ABC) を1つの抽象概念,すなわち有界メモリ制御 (ABC) に仮定できることを示した。
ABCが新たな可能性を明らかにしました。まずは、他の方法では見分けがつかないような、効率的なアテンションのバリエーションを接続します。
最後に,既存のABCアプローチからインスピレーションを得たABCの新しい事例を紹介する。
論文 参考訳(メタデータ) (2021-10-06T03:53:25Z) - Unlocking Pixels for Reinforcement Learning via Implicit Attention [61.666538764049854]
我々は最近,トランスフォーマーに非常に有効であることが示されている,新しい効率的なアテンションアルゴリズムを利用している。
これにより、注意に基づくコントローラは、より大きな視覚入力にスケールでき、より小さなパッチの使用が容易になります。
さらに,ソフトマックスの注目度をハイブリッドランダム特徴量で近似するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-08T17:00:26Z) - Data-Informed Global Sparseness in Attention Mechanisms for Deep Neural Networks [33.07113523598028]
本研究では,アテンション・プルーニング(Attention Pruning,AP)を提案する。
APは、言語モデリングの注意計算の90%を節約し、機械翻訳とGLUEタスクの約50%を節約し、結果の品質を維持している。
論文 参考訳(メタデータ) (2020-11-20T13:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。