論文の概要: Non-autoregressive Sequence-to-Sequence Vision-Language Models
- arxiv url: http://arxiv.org/abs/2403.02249v1
- Date: Mon, 4 Mar 2024 17:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:00:09.598107
- Title: Non-autoregressive Sequence-to-Sequence Vision-Language Models
- Title(参考訳): 非自己回帰シーケンス-シーケンスビジョン-ランゲージモデル
- Authors: Kunyu Shi, Qi Dong, Luis Goncalves, Zhuowen Tu, Stefano Soatto
- Abstract要約: 本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。
このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
- 参考スコア(独自算出の注目度): 63.77614880533488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequence-to-sequence vision-language models are showing promise, but their
applicability is limited by their inference latency due to their autoregressive
way of generating predictions. We propose a parallel decoding
sequence-to-sequence vision-language model, trained with a Query-CTC loss, that
marginalizes over multiple inference paths in the decoder. This allows us to
model the joint distribution of tokens, rather than restricting to conditional
distribution as in an autoregressive model. The resulting model, NARVL,
achieves performance on-par with its state-of-the-art autoregressive
counterpart, but is faster at inference time, reducing from the linear
complexity associated with the sequential generation of tokens to a paradigm of
constant time joint inference.
- Abstract(参考訳): sequence-to-sequence vision-languageモデルにはpromiseがあるが、その適用性は、予測を生成する自己回帰的な方法による推論レイテンシによって制限される。
本稿では,クエリ-CTC損失を学習し,デコーダ内の複数の推論経路を疎外する並列デコードシーケンス・シーケンス・シーケンス・ビジョン言語モデルを提案する。
これにより、自己回帰モデルのように条件付き分布に制限するのではなく、トークンのジョイント分布をモデル化できる。
NARVLは、最先端の自己回帰モデルと同等の性能を実現するが、推論時間では高速であり、トークンのシーケンシャルな生成に伴う線形複雑性から一定時間の合同推論のパラダイムに還元される。
関連論文リスト
- COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。
因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文 参考訳(メタデータ) (2024-07-01T15:43:25Z) - Fast and Robust Early-Exiting Framework for Autoregressive Language
Models with Synchronized Parallel Decoding [43.659680579686544]
本稿では,浅層深度モジュールと並列デコーディングを併用したFast and Robust Early-Exitingフレームワークを提案する。
我々のフレームワークは、既存のトークンの復号処理を、以前に積み重ねられた早期発行トークンと同期させることで、より高速な推論を可能にする。
並列デコーディングにより,浅層モデルと深部モデルの両方からの予測を観測できるので,新しい適応しきい値推定器を提案する。
論文 参考訳(メタデータ) (2023-10-09T05:53:05Z) - RecycleGPT: An Autoregressive Language Model with Recyclable Module [13.243551482623623]
高速な復号速度を持つ生成言語モデルであるRecycleGPTを提案する。
我々のアプローチは、隣接するトークンが通常強い相関を持つという観察に依存している。
実験と解析により、最大1.4倍のスピードアップを達成し、推論遅延を下げるアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-08-07T09:14:33Z) - SequenceMatch: Imitation Learning for Autoregressive Sequence Modelling with Backtracking [60.109453252858806]
MLE(Maxum-likelihood)の目的は、高品質なシーケンスを自動回帰的に生成する下流のユースケースと一致しない。
我々は、模倣学習(IL)問題としてシーケンス生成を定式化する。
これにより、自己回帰モデルによって生成されるシーケンスの分布とデータセットからのシーケンスとの差異を最小化できる。
得られた手法であるSequenceMatchは、敵の訓練やアーキテクチャの変更なしに実装できる。
論文 参考訳(メタデータ) (2023-06-08T17:59:58Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。
同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文 参考訳(メタデータ) (2021-03-30T05:48:05Z) - Synergetic Learning of Heterogeneous Temporal Sequences for
Multi-Horizon Probabilistic Forecasting [48.8617204809538]
本稿では,新しい条件生成モデルである変分相乗型マルチホライゾンネットワーク(VSMHN)を提案する。
不均一なシーケンス間で複雑な相関関係を学習するために、深部プロセスモデルと変動的リカレントニューラルネットワークの進歩を組み合わせるために、調整されたエンコーダが考案された。
我々のモデルは変動予測を用いて効果的に訓練でき、モンテカルロシミュレーションを用いて予測を生成することができる。
論文 参考訳(メタデータ) (2021-01-31T11:00:55Z) - Fast Sequence Generation with Multi-Agent Reinforcement Learning [40.75211414663022]
機械翻訳では、すべての単語を並列に生成することで推論時間を高速化するノンオートレグレッシブデコードが提案されている。
我々は,非自己回帰的シーケンス生成(NAG)のための新しい訓練パラダイムを用いた簡易かつ効率的なモデルを提案する。
MSCOCOイメージキャプションベンチマークでは、NAG法は最先端のオートレグレッシブモデルに匹敵するパフォーマンスを実現し、13.9倍のデコード高速化を実現します。
論文 参考訳(メタデータ) (2021-01-24T12:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。