論文の概要: Just read twice: closing the recall gap for recurrent language models
- arxiv url: http://arxiv.org/abs/2407.05483v1
- Date: Sun, 7 Jul 2024 19:55:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 17:39:22.152260
- Title: Just read twice: closing the recall gap for recurrent language models
- Title(参考訳): 2回読む: 繰り返し言語モデルのリコールギャップを閉じる
- Authors: Simran Arora, Aman Timalsina, Aaryan Singhal, Benjamin Spector, Sabri Eyuboglu, Xinyi Zhao, Ashish Rao, Atri Rudra, Christopher Ré,
- Abstract要約: 情報リコールの硬さは,集合不整合性と呼ばれる問題の硬さに還元されることを示す。
本稿では,JRT-Promptを提案する。
また、プロセスプロンプトに非因果プレフィックス-線形アテンションを使用し、99%のトランスフォーマー品質を提供するJRT-RNNを提案する。
- 参考スコア(独自算出の注目度): 41.94430033985774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recurrent large language models that compete with Transformers in language modeling perplexity are emerging at a rapid rate (e.g., Mamba, RWKV). Excitingly, these architectures use a constant amount of memory during inference. However, due to the limited memory, recurrent LMs cannot recall and use all the information in long contexts leading to brittle in-context learning (ICL) quality. A key challenge for efficient LMs is selecting what information to store versus discard. In this work, we observe the order in which information is shown to the LM impacts the selection difficulty. To formalize this, we show that the hardness of information recall reduces to the hardness of a problem called set disjointness (SD), a quintessential problem in communication complexity that requires a streaming algorithm (e.g., recurrent model) to decide whether inputted sets are disjoint. We empirically and theoretically show that the recurrent memory required to solve SD changes with set order, i.e., whether the smaller set appears first in-context. Our analysis suggests, to mitigate the reliance on data order, we can put information in the right order in-context or process prompts non-causally. Towards that end, we propose: (1) JRT-Prompt, where context gets repeated multiple times in the prompt, effectively showing the model all data orders. This gives $11.0 \pm 1.3$ points of improvement, averaged across $16$ recurrent LMs and the $6$ ICL tasks, with $11.9\times$ higher throughput than FlashAttention-2 for generation prefill (length $32$k, batch size $16$, NVidia H100). We then propose (2) JRT-RNN, which uses non-causal prefix-linear-attention to process prompts and provides $99\%$ of Transformer quality at $360$M params., $30$B tokens and $96\%$ at $1.3$B params., $50$B tokens on average across the tasks, with $19.2\times$ higher throughput for prefill than FA2.
- Abstract(参考訳): 言語モデリングの難易度においてトランスフォーマーと競合する頻繁な大規模言語モデルが急速に出現している(例:Mamba, RWKV)。
興味深いことに、これらのアーキテクチャは推論中に一定量のメモリを使用する。
しかし、メモリが限られているため、繰り返し発生するLMは、長いコンテキストで全ての情報をリコールしたり、使用したりすることはできず、コンテキスト内学習(ICL)の品質が不安定になる。
効率的なLMの鍵となる課題は、どの情報を保存するか、捨てるかを選択することである。
本研究では、LMに情報を表示する順序が選択困難に影響を及ぼすのを観察する。
これを形式化するために、情報リコールの硬さは、入力された集合が非結合であるかどうかを決定するためにストリーミングアルゴリズム(例えば、リカレントモデル)を必要とする通信複雑性における重要な問題であるセット不整合性(SD)と呼ばれる問題の硬さに還元されることを示す。
我々は、SD変化を解決するために必要なリカレントメモリが、設定順序、すなわち、より小さなセットが最初のコンテキストで現れるかどうかを経験的かつ理論的に示す。
我々の分析は、データ順序への依存を軽減するために、情報をコンテキスト内で正しい順番に配置したり、プロセスが非因果的にプロンプトしたりすることができることを示唆している。
そこで本研究では,(1)JRT-Promptを提案する。
これは11.0 \pm 1.3$の改善点を与え、平均は16$の繰り返しLMと6$のICLタスクで、生成前処理のFlashAttention-2よりも11.9\times$高いスループット(32$k、バッチサイズ16$、NVidia H100)である。
次に、(2)JRT-RNNを提案する。これは、プロセスプロンプトに非因果プレフィックス-線形アテンションを使用し、$99\%のTransformer品質を360$Mのパラムで提供する。
トークンは30ドル(約3万3000円)、トークンは9万6千円(約1万3000円)。
平均50ドルのトークンは、FA2よりも19.2\times$高スループットである。
関連論文リスト
- Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - LLoCO: Learning Long Contexts Offline [63.3458260335454]
長いコンテキストを処理するための新しいアプローチであるLLoCOを提案する。
LLoCOはコンテキスト圧縮とLoRAによるドメイン内パラメータ効率の微調整を通じて、オフラインでコンテキストを学習する。
提案手法は、4kトークンLLaMA2-7Bモデルの有効コンテキストウインドウを拡張し,最大128kトークンを処理する。
論文 参考訳(メタデータ) (2024-04-11T17:57:22Z) - Instructing Large Language Models to Identify and Ignore Irrelevant Conditions [37.45674126459101]
数学語問題(MWP)の解法は、しばしば無関係な条件を含む与えられた問題記述に基づいて推論経路を生成する必要がある。
既存のチェーン・オブ・シント (CoT) はMWPを解くために大規模言語モデル (LLM) の多段階推論能力を引き出す手法である。
我々は,LLMに無関係な条件を識別・無視するように指示する,I$3$Cという新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-19T14:07:28Z) - Answering Unseen Questions With Smaller Language Models Using Rationale
Generation and Dense Retrieval [9.136948771060895]
この設定でさらに改善する2つの方法を評価する。
どちらも、より大きな言語モデルによって生成された合理性と、マルチホップ密度検索システムから生成された長いコンテキストを組み合わせることに焦点を当てている。
我々の最高の推論モデルは、見当たらない評価データセットに対して、強い比較前のベースラインを大幅に改善します。
論文 参考訳(メタデータ) (2023-08-09T05:06:39Z) - H$_2$O: Heavy-Hitter Oracle for Efficient Generative Inference of Large
Language Models [110.06476624089679]
メモリフットプリントを大幅に削減する新しいKVキャッシュの実装手法を提案する。
我々のアプローチは、トークンのごく一部が、注意点の計算において、ほとんどの価値に寄与する、という観察に基づいている。
我々は,最近のトークンとH$のバランスを動的に保持するKVキャッシュ消去ポリシーであるヘビーヒッター(H$O)を提案する。
論文 参考訳(メタデータ) (2023-06-24T20:11:14Z) - You can't pick your neighbors, or can you? When and how to rely on
retrieval in the $k$NN-LM [65.74934004876914]
Retrieval-enhanced Language Model (LM) は、大規模な外部データストアから取得したテキストにそれらの予測を条件付ける。
そのようなアプローチの1つ、$k$NN-LMは、既存のLMの予測を$k$-nearest近くのモデルの出力と補間する。
本研究では,2つの英語モデルデータセットに対するアプローチの有効性を実証的に測定する。
論文 参考訳(メタデータ) (2022-10-28T02:57:40Z) - GraB: Finding Provably Better Data Permutations than Random Reshuffling [39.067886932979874]
ランダムリシャッフルはデータセットを各エポックにランダムに置換するが、非置換サンプリングよりも高速な収束をもたらすため、モデルトレーニングでは広く採用されている。
最近の研究では、厳密に選択されたデータ順序付けは、より多くの計算とメモリを使用するコストで、経験的に収束をさらにスピードアップさせることができることが示されている。
グラディエント・バランシング・アルゴリズム(GraB)は、トレーニングと検証の両方のパフォーマンスにおいて、ランダムなリシャッフルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-22T04:17:32Z) - Improving language models by retrieving from trillions of tokens [50.42630445476544]
大規模コーパスから取得した文書チャンクを条件付けすることで,自動回帰言語モデルを強化する。
2兆ドルのトークンデータベースで、Retrieval-Enhanced Transformer (RETRO)は、PileのGPT-3とJurassic-1に匹敵するパフォーマンスを得る。
論文 参考訳(メタデータ) (2021-12-08T17:32:34Z) - GMAT: Global Memory Augmentation for Transformers [45.584411593847406]
集中型アテンションベースの$textitglobal memory$$$M$$$ll L$でスパーストランスフォーマーブロックを拡張することを提案する。
私たちの拡張は、管理可能な$O(Mcdot(L+M))$メモリオーバーヘッドを持ち、以前のスパースソリューションとシームレスに統合できます。
論文 参考訳(メタデータ) (2020-06-05T07:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。