Fugu-MT 論文翻訳(概要): One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

論文の概要: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale

arxiv url: http://arxiv.org/abs/2303.06555v1
Date: Sun, 12 Mar 2023 03:38:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-14 18:12:54.692402
Title: One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale
Title（参考訳）: 1変圧器は大規模多モード拡散における全分布をフィッティングする
Authors: Fan Bao, Shen Nie, Kaiwen Xue, Chongxuan Li, Shi Pu, Yaole Wang, Gang Yue, Yue Cao, Hang Su, Jun Zhu
Abstract要約: 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。統一的な視点に触発されたUniDiffuserは、元の拡散モデルに最小限の変更を加えながら、全ての分布を同時に学習する。
参考スコア（独自算出の注目度）: 36.590918776922905
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a unified diffusion framework (dubbed UniDiffuser) to fit all distributions relevant to a set of multi-modal data in one model. Our key insight is -- learning diffusion models for marginal, conditional, and joint distributions can be unified as predicting the noise in the perturbed data, where the perturbation levels (i.e. timesteps) can be different for different modalities. Inspired by the unified view, UniDiffuser learns all distributions simultaneously with a minimal modification to the original diffusion model -- perturbs data in all modalities instead of a single modality, inputs individual timesteps in different modalities, and predicts the noise of all modalities instead of a single modality. UniDiffuser is parameterized by a transformer for diffusion models to handle input types of different modalities. Implemented on large-scale paired image-text data, UniDiffuser is able to perform image, text, text-to-image, image-to-text, and image-text pair generation by setting proper timesteps without additional overhead. In particular, UniDiffuser is able to produce perceptually realistic samples in all tasks and its quantitative results (e.g., the FID and CLIP score) are not only superior to existing general-purpose models but also comparable to the bespoken models (e.g., Stable Diffusion and DALL-E 2) in representative tasks (e.g., text-to-image generation).
Abstract（参考訳）: 本論文では,マルチモーダルデータの集合に関連するすべての分布を1つのモデルに適合させる統合拡散フレームワーク(UniDiffuser)を提案する。私たちの重要な洞察は -- 限界、条件、ジョイント分布の拡散モデルを学ぶことは、摂動レベル(すなわち時間ステップ)が異なるモダリティで異なる摂動データのノイズを予測するものとして統一できる。統一された視点に触発されて、UniDiffuserは元の拡散モデルに対する最小限の変更で全ての分布を同時に学習し、単一のモダリティの代わりに全てのモダリティでデータを摂動し、異なるモダリティで個々のタイムステップを入力し、単一のモダリティの代わりに全てのモダリティのノイズを予測する。 UniDiffuserは、異なるモードの入力タイプを扱う拡散モデルのための変換器によってパラメータ化される。大規模なペア画像テキストデータに基づいて、UniDiffuserは画像、テキスト、テキスト・トゥ・イメージ、画像・ツー・テキスト、画像・テキストのペア生成を行うことができる。特に、UniDiffuserは、すべてのタスクにおいて知覚的に現実的なサンプルを生成することができ、その定量的結果(例えば、FIDとCLIPスコア)は、既存の汎用モデルよりも優れているだけでなく、代表タスク(例えば、テキストから画像生成)において、bespokenモデル(例えば、安定拡散とDALL-E2)に匹敵する。

関連論文リスト

Diffuse Everything: Multimodal Diffusion Models on Arbitrary State Spaces [10.85468238780625]
任意の状態空間上に多モード拡散モデルを構築するための新しいフレームワークを提案する。各モードに対して革新的な分離ノイズスケジュールを導入することにより、単一モデル内で非条件とモード条件の両方を同時に生成することが可能となる。
論文参考訳（メタデータ） (2025-06-09T16:20:20Z)
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers [86.5541501589166]
DiffMoEはバッチレベルのグローバルトークンプールで、トレーニング中に専門家がグローバルトークンの配布にアクセスできるようにする。 ImageNetベンチマークの拡散モデル間での最先端のパフォーマンスを実現する。このアプローチの有効性は、クラス条件生成を超えて、テキスト・ツー・イメージ生成のようなより困難なタスクにも及んでいる。
論文参考訳（メタデータ） (2025-03-18T17:57:07Z)
TabDiff: a Multi-Modal Diffusion Model for Tabular Data Generation [91.50296404732902]
1つのモデルで表データのマルチモーダル分布をモデル化する共同拡散フレームワークであるTabDiffを紹介する。我々の重要な革新は、数値データと分類データのための連立連続時間拡散プロセスの開発である。 TabDiffは、既存の競合ベースラインよりも優れた平均性能を実現し、ペアワイドカラム相関推定における最先端モデルよりも最大で22.5%改善されている。
論文参考訳（メタデータ） (2024-10-27T22:58:47Z)
Diffscaler: Enhancing the Generative Prowess of Diffusion Transformers [34.611309081801345]
本稿では,1つの事前学習拡散変圧器モデルにより,複数のデータセットを高速にスケールできるようにすることに焦点をあてる。 DiffScalerは拡散モデルの効率的なスケーリング戦略であり、異なるタスクに適応するために最小限のパラメータを訓練する。変換器に基づく拡散モデルは,より小さなデータセットに対して微調整を行いながら,CNNに基づく拡散モデルよりも大幅に優れていることがわかった。
論文参考訳（メタデータ） (2024-04-15T17:55:43Z)
Boosting Diffusion Models with Moving Average Sampling in Frequency Domain [101.43824674873508]
拡散モデルは、現在のサンプルに頼って次のサンプルをノイズ化し、おそらく不安定化を引き起こす。本稿では,反復的復調過程をモデル最適化として再解釈し,移動平均機構を利用して全ての先行サンプルをアンサンブルする。周波数領域における平均サンプリング(MASF)の動作」という完全なアプローチを命名する。
論文参考訳（メタデータ） (2024-03-26T16:57:55Z)
Selective Hourglass Mapping for Universal Image Restoration Based on Diffusion Model [36.57703763466984]
そこで我々は拡散モデルDiffUIRに基づく高度な時間ガラスマッピング戦略を提案する。 5つの画像復元タスク、22のベンチマーク、ゼロショットの一般化設定で最先端の性能を実現する。
論文参考訳（メタデータ） (2024-03-17T09:41:20Z)
Diffusion Random Feature Model [0.0]
本稿では,拡散モデルにインスパイアされた深部ランダム特徴モデルを提案する。サンプルデータの分布と真の分布との一般化境界をスコアマッチングの特性を用いて導出する。ファッションMNISTデータセットとインストゥルメンタルオーディオデータに基づいてサンプルを生成し,本研究の検証を行った。
論文参考訳（メタデータ） (2023-10-06T17:59:05Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文参考訳（メタデータ） (2022-12-01T18:59:55Z)
f-DM: A Multi-stage Diffusion Model via Progressive Signal Transformation [56.04628143914542]
拡散モデル(DM)は、最近、様々な領域で生成モデリングを行うためのSoTAツールとして登場した。本稿では、プログレッシブ信号変換が可能なDMの一般化されたファミリであるf-DMを提案する。我々は、ダウンサンプリング、ぼやけ、学習された変換を含む様々な機能を持つ画像生成タスクにf-DMを適用した。
論文参考訳（メタデータ） (2022-10-10T18:49:25Z)
Image Generation with Multimodal Priors using Denoising Diffusion Probabilistic Models [54.1843419649895]
このタスクを達成するために生成モデルを使用する際の大きな課題は、すべてのモダリティと対応する出力を含むペアデータの欠如である。本稿では,拡散確率的合成モデルに基づく多モデル先行画像生成手法を提案する。
論文参考訳（メタデータ） (2022-06-10T12:23:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。