論文の概要: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
- arxiv url: http://arxiv.org/abs/2303.06555v1
- Date: Sun, 12 Mar 2023 03:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 18:12:54.692402
- Title: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
- Title(参考訳): 1変圧器は大規模多モード拡散における全分布をフィッティングする
- Authors: Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang
Yue, Yue Cao, Hang Su, Jun Zhu
- Abstract要約: 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
- 参考スコア(独自算出の注目度): 36.590918776922905
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a unified diffusion framework (dubbed UniDiffuser) to fit
all distributions relevant to a set of multi-modal data in one model. Our key
insight is -- learning diffusion models for marginal, conditional, and joint
distributions can be unified as predicting the noise in the perturbed data,
where the perturbation levels (i.e. timesteps) can be different for different
modalities. Inspired by the unified view, UniDiffuser learns all distributions
simultaneously with a minimal modification to the original diffusion model --
perturbs data in all modalities instead of a single modality, inputs individual
timesteps in different modalities, and predicts the noise of all modalities
instead of a single modality. UniDiffuser is parameterized by a transformer for
diffusion models to handle input types of different modalities. Implemented on
large-scale paired image-text data, UniDiffuser is able to perform image, text,
text-to-image, image-to-text, and image-text pair generation by setting proper
timesteps without additional overhead. In particular, UniDiffuser is able to
produce perceptually realistic samples in all tasks and its quantitative
results (e.g., the FID and CLIP score) are not only superior to existing
general-purpose models but also comparable to the bespoken models (e.g., Stable
Diffusion and DALL-E 2) in representative tasks (e.g., text-to-image
generation).
- Abstract(参考訳): 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。
私たちの重要な洞察は -- 限界、条件、ジョイント分布の拡散モデルを学ぶことは、摂動レベル(すなわち時間ステップ)が異なるモダリティで異なる摂動データのノイズを予測するものとして統一できる。
統一された視点に触発されて、UniDiffuserは元の拡散モデルに対する最小限の変更で全ての分布を同時に学習し、単一のモダリティの代わりに全てのモダリティでデータを摂動し、異なるモダリティで個々のタイムステップを入力し、単一のモダリティの代わりに全てのモダリティのノイズを予測する。
UniDiffuserは、異なるモードの入力タイプを扱う拡散モデルのための変換器によってパラメータ化される。
大規模なペア画像テキストデータに基づいて、UniDiffuserは画像、テキスト、テキスト・トゥ・イメージ、画像・ツー・テキスト、画像・テキストのペア生成を行うことができる。
特に、UniDiffuserは、すべてのタスクにおいて知覚的に現実的なサンプルを生成することができ、その定量的結果(例えば、FIDとCLIPスコア)は、既存の汎用モデルよりも優れているだけでなく、代表タスク(例えば、テキストから画像生成)において、bespokenモデル(例えば、安定拡散とDALL-E2)に匹敵する。
関連論文リスト
- TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。
我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。
TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文 参考訳(メタデータ) (2024-10-27T22:58:47Z) - Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。
DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。
変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2024-04-15T17:55:43Z) - Boosting Diffusion Models with Moving Average Sampling in Frequency Domain [101.43824674873508]
拡散モデルは、現在のサンプルに頼って次のサンプルをノイズ化し、おそらく不安定化を引き起こす。
本稿では,反復的復調過程をモデル最適化として再解釈し,移動平均機構を利用して全ての先行サンプルをアンサンブルする。
周波数領域における平均サンプリング(MASF)の動作」という完全なアプローチを命名する。
論文 参考訳(メタデータ) (2024-03-26T16:57:55Z) - Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model [36.57703763466984]
そこで我々は拡散モデルDiffUIRに基づく高度な時間ガラスマッピング戦略を提案する。
5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-03-17T09:41:20Z) - Diffusion Random Feature Model [0.0]
本稿では,拡散モデルにインスパイアされた深部ランダム特徴モデルを提案する。
サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。
ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。
論文 参考訳(メタデータ) (2023-10-06T17:59:05Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - f-DM: A Multi-stage Diffusion Model via Progressive Signal
Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。
本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。
我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文 参考訳(メタデータ) (2022-10-10T18:49:25Z) - Image Generation with Multimodal Priors using Denoising Diffusion
Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。
本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-10T12:23:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。