論文の概要: Hungry Hungry Hippos: Towards Language Modeling with State Space Models
- arxiv url: http://arxiv.org/abs/2212.14052v3
- Date: Sat, 29 Apr 2023 03:18:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 18:52:11.970887
- Title: Hungry Hungry Hippos: Towards Language Modeling with State Space Models
- Title(参考訳): Hungry Hungry Hippos: 状態空間モデルによる言語モデリングを目指して
- Authors: Daniel Y. Fu, Tri Dao, Khaled K. Saab, Armin W. Thomas, Atri Rudra,
Christopher R\'e
- Abstract要約: 状態空間モデル (SSM) は、いくつかのモダリティにおいて最先端のシーケンスモデリング性能を示しているが、言語モデリングではあまり注目されていない。
本稿では,SSM間の表現力ギャップと言語モデリングにおける注意点の理解,およびSSM間のハードウェア障壁の低減について述べる。
- 参考スコア(独自算出の注目度): 17.412372994222114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State space models (SSMs) have demonstrated state-of-the-art sequence
modeling performance in some modalities, but underperform attention in language
modeling. Moreover, despite scaling nearly linearly in sequence length instead
of quadratically, SSMs are still slower than Transformers due to poor hardware
utilization. In this paper, we make progress on understanding the expressivity
gap between SSMs and attention in language modeling, and on reducing the
hardware barrier between SSMs and attention. First, we use synthetic language
modeling tasks to understand the gap between SSMs and attention. We find that
existing SSMs struggle with two capabilities: recalling earlier tokens in the
sequence and comparing tokens across the sequence. To understand the impact on
language modeling, we propose a new SSM layer, H3, that is explicitly designed
for these abilities. H3 matches attention on the synthetic languages and comes
within 0.4 PPL of Transformers on OpenWebText. Furthermore, a hybrid
125M-parameter H3-attention model that retains two attention layers
surprisingly outperforms Transformers on OpenWebText by 1.0 PPL. Next, to
improve the efficiency of training SSMs on modern hardware, we propose
FlashConv. FlashConv uses a fused block FFT algorithm to improve efficiency on
sequences up to 8K, and introduces a novel state passing algorithm that
exploits the recurrent properties of SSMs to scale to longer sequences.
FlashConv yields 2$\times$ speedup on the long-range arena benchmark and allows
hybrid language models to generate text 2.4$\times$ faster than Transformers.
Using FlashConv, we scale hybrid H3-attention language models up to 2.7B
parameters on the Pile and find promising initial results, achieving lower
perplexity than Transformers and outperforming Transformers in zero- and
few-shot learning on a majority of tasks in the SuperGLUE benchmark.
- Abstract(参考訳): 状態空間モデル (SSM) は、いくつかのモダリティにおいて最先端のシーケンスモデリング性能を示しているが、言語モデリングではあまり注目されていない。
さらに、二乗ではなく列長でほぼ線形にスケーリングしても、ハードウェア使用率の低さから、ssmはトランスフォーマーよりも遅い。
本稿では,言語モデリングにおけるssmと注意の間の表現性ギャップの理解と,ssmと注意の間のハードウェア障壁の低減について述べる。
まず,SSMと注意のギャップを理解するために,合成言語モデリングタスクを用いる。
既存のssmには2つの機能があります。シーケンス内の以前のトークンのリコールと、シーケンス全体のトークンの比較です。
言語モデリングへの影響を理解するため,これらの機能に特化して設計された新しいSSM層H3を提案する。
H3は合成言語に注意を向け、OpenWebText上のTransformersの0.4 PPL以内である。
さらに、2つの注意層を保持する125mパラメータh3アテンションハイブリッドモデルは、openwebtextのトランスフォーマーを1.0 pplで驚くほど上回っている。
次に,最新のハードウェア上でのssmトレーニングの効率を向上させるため,flashconvを提案する。
FlashConvは8Kまでのシーケンスの効率を改善するために融合ブロックFFTアルゴリズムを使用し、SSMの繰り返し特性を利用して長いシーケンスにスケールする新しいステートパスアルゴリズムを導入した。
FlashConvは、長距離アリーナベンチマークで2$\times$スピードアップし、トランスフォーマーよりも2.4$\times$のテキストを生成することができる。
flashconvを使用すると、最大2.7bのパラメータを持つハイブリッドh3-attention言語モデルにスケールし、最初の結果が期待できる。
関連論文リスト
- FTMoMamba: Motion Generation with Frequency and Text State Space Models [53.60865359814126]
本稿では,周波数状態空間モデルとテキスト状態空間モデルを備えた新しい拡散型FTMoMambaフレームワークを提案する。
微細な表現を学ぶために、FreqSSMは配列を低周波成分と高周波成分に分解する。
テキストと動作の一貫性を確保するために、TextSSMはテキスト機能を文レベルでエンコードする。
論文 参考訳(メタデータ) (2024-11-26T15:48:12Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Tandem Transformers for Inference Efficient LLMs [49.75726447408795]
これらの問題に対処するために,新しいアーキテクチャであるタンデム変換器を導入する。
このアーキテクチャは、小さな自己回帰モデルとブロックモードで動作する大きなモデルを組み合わせたものである。
PaLM2プレトレーニングデータセットでは、PaLM2-BisonとPaLM2-Geckoのタンデムが次点予測精度を3.3%改善している。
論文 参考訳(メタデータ) (2024-02-13T18:24:08Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Block-State Transformers [41.57016890030355]
状態空間モデル(SSM)は、長距離依存のモデリングを必要とするタスクに対して印象的な結果を示している。
本稿では,長距離コンテキスト化のためのSSMサブレイヤを内部的に結合したBST(Block-State Transformer)というハイブリッド層を提案する。
我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
論文 参考訳(メタデータ) (2023-06-15T22:48:08Z) - Multi-Head State Space Model for Speech Recognition [44.04124537862432]
状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示した。
本稿では,特殊なゲーティング機構を備えたマルチヘッド状態空間(MH-SSM)アーキテクチャを提案する。
変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-21T16:28:57Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。