論文の概要: Parallelizing Autoregressive Generation with Variational State Space Models
- arxiv url: http://arxiv.org/abs/2407.08415v1
- Date: Thu, 11 Jul 2024 11:41:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:39:27.556386
- Title: Parallelizing Autoregressive Generation with Variational State Space Models
- Title(参考訳): 変分状態空間モデルによる自己回帰生成の並列化
- Authors: Gaspard Lambrechts, Yann Claes, Pierre Geurts, Damien Ernst,
- Abstract要約: 本稿では,エンコーダとデコーダの両方がSSMである可変オートエンコーダ(VAE)を提案する。
潜伏変数をサンプリングしてSSMで復号化できるので、トレーニングと生成の両方を並列に行うことができる。
デコーダの繰り返しにより、シーケンス全体を再処理することなく生成を再開することができる。
- 参考スコア(独自算出の注目度): 6.29143368345159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention-based models such as Transformers and recurrent models like state space models (SSMs) have emerged as successful methods for autoregressive sequence modeling. Although both enable parallel training, none enable parallel generation due to their autoregressiveness. We propose the variational SSM (VSSM), a variational autoencoder (VAE) where both the encoder and decoder are SSMs. Since sampling the latent variables and decoding them with the SSM can be parallelized, both training and generation can be conducted in parallel. Moreover, the decoder recurrence allows generation to be resumed without reprocessing the whole sequence. Finally, we propose the autoregressive VSSM that can be conditioned on a partial realization of the sequence, as is common in language generation tasks. Interestingly, the autoregressive VSSM still enables parallel generation. We highlight on toy problems (MNIST, CIFAR) the empirical gains in speed-up and show that it competes with traditional models in terms of generation quality (Transformer, Mamba SSM).
- Abstract(参考訳): トランスフォーマーや状態空間モデル(SSM)のようなアテンションベースのモデルが自己回帰シーケンスモデリングの手法として成功した。
どちらも並列トレーニングが可能であるが、自己回帰性のために並列生成は不可能である。
本稿では,変分自動エンコーダ (VAE) である変分自動エンコーダ (VSSM) を提案する。
潜伏変数をサンプリングしてSSMで復号化できるので、トレーニングと生成の両方を並列に行うことができる。
さらに、デコーダの再発により、シーケンス全体を再処理することなく生成を再開することができる。
最後に、言語生成タスクでよく見られるように、シーケンスの部分的実現を前提とした自動回帰VSSMを提案する。
興味深いことに、自動回帰VSSMは依然として並列生成を可能にする。
我々は,玩具問題 (MNIST, CIFAR) のスピードアップの実証的な向上に注目し,世代品質(Transformer, Mamba SSM)の点で従来のモデルと競合することを示す。
関連論文リスト
- Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
本稿では,オンライン回帰目標を最適化するための暗黙の更新に基づく新しい深層SSMアーキテクチャを提案する。
実験の結果,我々のモデルは,標準シーケンスモデリングベンチマークや言語モデリングタスクにおいて,最先端のSSMよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。
このようなモデルを注意駆動モデルとみなすことができる。
この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文 参考訳(メタデータ) (2024-03-03T18:58:21Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。
トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-10-30T16:11:06Z) - Non-autoregressive Streaming Transformer for Simultaneous Translation [45.96493039754171]
同時機械翻訳(SiMT)モデルは、レイテンシと翻訳品質のバランスをとるために訓練される。
非自己回帰型ストリーミング変換器(NAST)を提案する。
NASTは、一方向エンコーダと、チャンク内並列性を有する非自己回帰デコーダからなる。
論文 参考訳(メタデータ) (2023-10-23T12:52:24Z) - Block-State Transformers [41.57016890030355]
状態空間モデル(SSM)は、長距離依存のモデリングを必要とするタスクに対して印象的な結果を示している。
本稿では,長距離コンテキスト化のためのSSMサブレイヤを内部的に結合したBST(Block-State Transformer)というハイブリッド層を提案する。
我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
論文 参考訳(メタデータ) (2023-06-15T22:48:08Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Cascaded Text Generation with Markov Transformers [122.76100449018061]
ニューラルテキスト生成における2つの主要なアプローチは、シリアルビームサーチデコーディングを使用した完全自己回帰モデルと、出力依存のない並列デコーディングを使用した非自己回帰モデルである。
本稿では,境界付きコンテキストを持つ条件付きランダムフィールドを並列にデコードできることに言及し,高品質な出力を生成するための効率的なカスケードデコード手法を提案する。
このアプローチでは,5つの機械翻訳データセットの既存の手法と比較して,競争力のある精度と速度のトレードオフを示す一方で,標準的な自己回帰トレーニングからのわずかな変更しか必要としない。
論文 参考訳(メタデータ) (2020-06-01T17:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。