論文の概要: Multimodal Latent Language Modeling with Next-Token Diffusion
- arxiv url: http://arxiv.org/abs/2412.08635v1
- Date: Wed, 11 Dec 2024 18:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:25.880002
- Title: Multimodal Latent Language Modeling with Next-Token Diffusion
- Title(参考訳): 次世代拡散を用いたマルチモーダル潜在言語モデリング
- Authors: Yutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei,
- Abstract要約: マルチモーダル生成モデルは、離散データ(テキストやコードなど)と連続データ(画像、オーディオ、ビデオなど)の両方を扱う統一的なアプローチを必要とする。
因果変換器を用いて連続データと離散データをシームレスに統合する潜在言語モデリング(LatentLM)を提案する。
- 参考スコア(独自算出の注目度): 111.93906046452125
- License:
- Abstract: Multimodal generative models require a unified approach to handle both discrete data (e.g., text and code) and continuous data (e.g., image, audio, video). In this work, we propose Latent Language Modeling (LatentLM), which seamlessly integrates continuous and discrete data using causal Transformers. Specifically, we employ a variational autoencoder (VAE) to represent continuous data as latent vectors and introduce next-token diffusion for autoregressive generation of these vectors. Additionally, we develop $\sigma$-VAE to address the challenges of variance collapse, which is crucial for autoregressive modeling. Extensive experiments demonstrate the effectiveness of LatentLM across various modalities. In image generation, LatentLM surpasses Diffusion Transformers in both performance and scalability. When integrated into multimodal large language models, LatentLM provides a general-purpose interface that unifies multimodal generation and understanding. Experimental results show that LatentLM achieves favorable performance compared to Transfusion and vector quantized models in the setting of scaling up training tokens. In text-to-speech synthesis, LatentLM outperforms the state-of-the-art VALL-E 2 model in speaker similarity and robustness, while requiring 10x fewer decoding steps. The results establish LatentLM as a highly effective and scalable approach to advance large multimodal models.
- Abstract(参考訳): マルチモーダル生成モデルは、離散データ(例えば、テキストとコード)と連続データ(例えば、画像、オーディオ、ビデオ)の両方を扱う統一的なアプローチを必要とする。
本研究では,因果変換器を用いて連続データと離散データをシームレスに統合するLatent Language Modeling (LatentLM)を提案する。
具体的には,連続データを潜在ベクトルとして表現するために変分オートエンコーダ(VAE)を用い,これらのベクトルの自動回帰生成に次点拡散を導入する。
さらに, 自己回帰モデルにおいて重要な分散崩壊問題に対処するために, $\sigma$-VAE を開発した。
広範囲にわたる実験により, 様々なモードにおけるLatntLMの有効性が示された。
画像生成において、LatentLMはDiffusion Transformerをパフォーマンスとスケーラビリティの両方で上回っている。
マルチモーダルな言語モデルに統合されると、LatentLMは多モーダル生成と理解を統一する汎用インターフェースを提供する。
実験結果から,LatentLMは,トレーニングトークンのスケールアップ設定において,Transfusionやベクトル量子化モデルと比較して良好な性能を示した。
テキストから音声合成において、LatntLMは、最先端のVALL-E 2モデルよりもスピーカーの類似性とロバスト性に優れ、デコードステップは10倍少ない。
その結果,LatentLMは大規模マルチモーダルモデルの高度かつスケーラブルなアプローチとして確立された。
関連論文リスト
- Show-o: One Single Transformer to Unify Multimodal Understanding and Generation [24.58881004205822]
マルチモーダル理解と生成を統一する統一変換器,すなわちShow-oを提案する。
完全自己回帰モデルとは異なり、Show-oは自己回帰と(離散的な)拡散モデリングを統一し、様々な混合モダリティの入力と出力を適応的に処理する。
論文 参考訳(メタデータ) (2024-08-22T16:32:32Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Diffusion Glancing Transformer for Parallel Sequence to Sequence
Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。
DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文 参考訳(メタデータ) (2022-12-20T13:36:25Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。