論文の概要: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
- arxiv url: http://arxiv.org/abs/2303.06555v1
- Date: Sun, 12 Mar 2023 03:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:12:54.692402
- Title: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
- Title(参考訳): 1変圧器は大規模多モード拡散における全分布をフィッティングする
- Authors: Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang
Yue, Yue Cao, Hang Su, Jun Zhu
- Abstract要約: 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
- 参考スコア(独自算出の注目度): 36.590918776922905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a unified diffusion framework (dubbed UniDiffuser) to fit
all distributions relevant to a set of multi-modal data in one model. Our key
insight is -- learning diffusion models for marginal, conditional, and joint
distributions can be unified as predicting the noise in the perturbed data,
where the perturbation levels (i.e. timesteps) can be different for different
modalities. Inspired by the unified view, UniDiffuser learns all distributions
simultaneously with a minimal modification to the original diffusion model --
perturbs data in all modalities instead of a single modality, inputs individual
timesteps in different modalities, and predicts the noise of all modalities
instead of a single modality. UniDiffuser is parameterized by a transformer for
diffusion models to handle input types of different modalities. Implemented on
large-scale paired image-text data, UniDiffuser is able to perform image, text,
text-to-image, image-to-text, and image-text pair generation by setting proper
timesteps without additional overhead. In particular, UniDiffuser is able to
produce perceptually realistic samples in all tasks and its quantitative
results (e.g., the FID and CLIP score) are not only superior to existing
general-purpose models but also comparable to the bespoken models (e.g., Stable
Diffusion and DALL-E 2) in representative tasks (e.g., text-to-image
generation).
- Abstract(参考訳): 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
私たちの重要な洞察は -- 限界、条件、ジョイント分布の拡散モデルを学ぶことは、摂動レベル(すなわち時間ステップ)が異なるモダリティで異なる摂動データのノイズを予測するものとして統一できる。
統一された視点に触発されて、UniDiffuserは元の拡散モデルに対する最小限の変更で全ての分布を同時に学習し、単一のモダリティの代わりに全てのモダリティでデータを摂動し、異なるモダリティで個々のタイムステップを入力し、単一のモダリティの代わりに全てのモダリティのノイズを予測する。
UniDiffuserは、異なるモードの入力タイプを扱う拡散モデルのための変換器によってパラメータ化される。
大規模なペア画像テキストデータに基づいて、UniDiffuserは画像、テキスト、テキスト・トゥ・イメージ、画像・ツー・テキスト、画像・テキストのペア生成を行うことができる。
特に、UniDiffuserは、すべてのタスクにおいて知覚的に現実的なサンプルを生成することができ、その定量的結果(例えば、FIDとCLIPスコア)は、既存の汎用モデルよりも優れているだけでなく、代表タスク(例えば、テキストから画像生成)において、bespokenモデル(例えば、安定拡散とDALL-E2)に匹敵する。
関連論文リスト
- Diffusion Models Trained with Large Data Are Transferable Visual Models [51.9937114613558]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Diffusion Random Feature Model [0.0]
本稿では,拡散モデルにインスパイアされた深部ランダム特徴モデルを提案する。
サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。
ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。
論文 参考訳(メタデータ) (2023-10-06T17:59:05Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Bayesian Flow Networks [4.585102332532472]
本稿では,ベイジアン・フロー・ネットワーク(BFN)について述べる。ベイジアン・フロー・ネットワーク(BFN)は,独立分布の集合のパラメータをベイジアン推論で修正した新しい生成モデルである。
単純な事前および反復的な2つの分布の更新から始めると、拡散モデルの逆過程に似た生成手順が得られる。
BFNは動的にバイナライズされたMNISTとCIFAR-10で画像モデリングを行うために競合するログライクフレーションを実現し、text8文字レベルの言語モデリングタスクにおいて既知のすべての離散拡散モデルより優れている。
論文 参考訳(メタデータ) (2023-08-14T09:56:35Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - From Points to Functions: Infinite-dimensional Representations in
Diffusion Models [23.916417852496608]
拡散に基づく生成モデルは、非構造的雑音を複雑な対象分布に反復的に伝達することを学ぶ。
異なる時間ステップからの情報コンテンツを組み合わせることで、下流のタスクをより正確に表現できることが示される。
論文 参考訳(メタデータ) (2022-10-25T05:30:53Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。