論文の概要: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
- arxiv url: http://arxiv.org/abs/2408.11039v1
- Date: Tue, 20 Aug 2024 17:48:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 12:45:00.592696
- Title: Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model
- Title(参考訳): トランスフュージョン:1つのマルチモーダルモデルで次のトーケンと拡散画像を予測する
- Authors: Chunting Zhou, Lili Yu, Arun Babu, Kushal Tirumala, Michihiro Yasunaga, Leonid Shamis, Jacob Kahn, Xuezhe Ma, Luke Zettlemoyer, Omer Levy,
- Abstract要約: 離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
我々はテキストと画像の混合データに基づいて,テキストから最大7Bパラメータまでの複数のTransfusionモデルを事前訓練する。
実験の結果,Transfusionは画像の定量化や個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
- 参考スコア(独自算出の注目度): 101.65105730838346
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Transfusion, a recipe for training a multi-modal model over discrete and continuous data. Transfusion combines the language modeling loss function (next token prediction) with diffusion to train a single transformer over mixed-modality sequences. We pretrain multiple Transfusion models up to 7B parameters from scratch on a mixture of text and image data, establishing scaling laws with respect to a variety of uni- and cross-modal benchmarks. Our experiments show that Transfusion scales significantly better than quantizing images and training a language model over discrete image tokens. By introducing modality-specific encoding and decoding layers, we can further improve the performance of Transfusion models, and even compress each image to just 16 patches. We further demonstrate that scaling our Transfusion recipe to 7B parameters and 2T multi-modal tokens produces a model that can generate images and text on a par with similar scale diffusion models and language models, reaping the benefits of both worlds.
- Abstract(参考訳): 離散的かつ連続的なデータに対してマルチモーダルモデルをトレーニングするためのレシピであるTransfusionを紹介する。
トランスフュージョンは、言語モデリング損失関数(次のトークン予測)と拡散を組み合わせることで、混合モダリティシーケンス上で単一のトランスフォーマーをトレーニングする。
テキストと画像データの混在から最大7Bパラメータまでの複数のTransfusionモデルを事前訓練し、様々なユニモーダルおよびクロスモーダルベンチマークに関するスケーリング法則を確立する。
実験の結果,Transfusionは画像の定量化や,個別画像トークンによる言語モデルの訓練よりも,はるかに優れたスケールを実現していることがわかった。
モダリティ固有の符号化レイヤとデコードレイヤを導入することで、Transfusionモデルの性能をさらに向上させ、各イメージを16パッチに圧縮することが可能になる。
さらに、Transfusionのレシピを7Bパラメータと2Tマルチモーダルトークンにスケールさせることで、同様のスケールの拡散モデルや言語モデルと同等に画像やテキストを生成し、両方の世界の利点を享受できるモデルが生成されることを実証した。
関連論文リスト
- Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。
本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文 参考訳(メタデータ) (2024-07-24T18:04:17Z) - Bridging the Gap between Synthetic and Authentic Images for Multimodal
Machine Translation [51.37092275604371]
マルチモーダル機械翻訳(MMT)は、ソース文と関連する画像を同時に翻訳の入力とする。
近年の研究では、画像入力のための強力なテキスト・画像生成モデルが提案されている。
しかし、これらのモデルによって生成された合成画像は、実際の画像と比較して異なる分布を辿ることが多い。
論文 参考訳(メタデータ) (2023-10-20T09:06:30Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Semantic-Conditional Diffusion Networks for Image Captioning [116.86677915812508]
画像キャプションに適した拡散モデルに基づく新しいパラダイム,すなわちセマンティック・コンディション・ディフュージョン・ネットワーク(SCD-Net)を提案する。
SCD-Netでは、複数の拡散変換器構造を積み重ねて、より優れた視覚言語アライメントと言語的コヒーレンスで出力文を徐々に強化する。
COCOデータセットの実験は、困難な画像キャプションタスクにおいて拡散モデルを使用することの有望な可能性を示している。
論文 参考訳(メタデータ) (2022-12-06T16:08:16Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - SinDiffusion: Learning a Diffusion Model from a Single Natural Image [159.4285444680301]
SinDiffusionは1つの自然な画像からパッチの内部分布を捉えるためにデノナイズ拡散モデルを利用する。
SinDiffusionは、2つのコア設計に基づいている。まず、SinDiffusionは、段階的にスケールが成長する複数のモデルではなく、1つのスケールで1つのモデルで訓練されている。
第2に,拡散ネットワークのパッチレベルの受容領域は,画像のパッチ統計を捉える上で重要かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-11-22T18:00:03Z) - Unsupervised Medical Image Translation with Adversarial Diffusion Models [0.2770822269241974]
ソース・トゥ・ターゲット・モダリティ変換による画像の欠落の計算は、医用画像プロトコルの多様性を向上させることができる。
本稿では, 医用画像翻訳の性能向上のための逆拡散モデルであるSynDiffを提案する。
論文 参考訳(メタデータ) (2022-07-17T15:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。