論文の概要: DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion
Models
- arxiv url: http://arxiv.org/abs/2305.15194v1
- Date: Wed, 24 May 2023 14:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 15:20:44.017113
- Title: DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion
Models
- Title(参考訳): DiffBlender:スケーラブルで構成可能なマルチモーダルテキスト・画像拡散モデル
- Authors: Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn
- Abstract要約: 我々はDiffBlenderと呼ばれるマルチモーダルテキスト・画像拡散モデルを設計し、様々なタイプのモダリティを同時に組み込む。
条件付モダリティのチャネルを多様化させることにより、DiffBlenderは提供された情報を忠実に反映するか、あるいはその欠如により想像的生成を生成する。
- 参考スコア(独自算出の注目度): 12.42890143733549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent progress in diffusion-based text-to-image generation models has
significantly expanded generative capabilities via conditioning the text
descriptions. However, since relying solely on text prompts is still
restrictive for fine-grained customization, we aim to extend the boundaries of
conditional generation to incorporate diverse types of modalities, e.g.,
sketch, box, and style embedding, simultaneously. We thus design a multimodal
text-to-image diffusion model, coined as DiffBlender, that achieves the
aforementioned goal in a single model by training only a few small
hypernetworks. DiffBlender facilitates a convenient scaling of input
modalities, without altering the parameters of an existing large-scale
generative model to retain its well-established knowledge. Furthermore, our
study sets new standards for multimodal generation by conducting quantitative
and qualitative comparisons with existing approaches. By diversifying the
channels of conditioning modalities, DiffBlender faithfully reflects the
provided information or, in its absence, creates imaginative generation.
- Abstract(参考訳): 拡散型テキスト画像生成モデルの最近の進歩は、テキスト記述の条件付けにより、生成能力を著しく向上させた。
しかし,テキストプロンプトのみに依存することは細かなカスタマイズにはまだ制約があるため,条件生成の境界を拡張し,スケッチ,ボックス,スタイル埋め込みといった多様な種類のモダリティを同時に取り入れることを目指している。
そこで我々は, 差分blender と呼ばれるマルチモーダルテキストから画像への拡散モデルを設計し, わずか数個のハイパーネットワークを訓練することにより, 単一モデルで上記の目標を達成する。
DiffBlenderは、既存の大規模生成モデルのパラメータを変更することなく、入力モダリティの便利なスケーリングを容易にする。
さらに,既存の手法と定量的・質的比較を行い,マルチモーダル生成の新しい基準を定式化する。
条件付モダリティのチャネルを多様化させることにより、DiffBlenderは提供された情報を忠実に反映するか、あるいはその欠如により想像的生成を生成する。
関連論文リスト
- SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [68.85090820128808]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - Reduce, Reuse, Recycle: Compositional Generation with Energy-Based
Diffusion Models and MCMC [90.44691478696522]
拡散モデルは、多くの領域において、生成モデリングの一般的なアプローチとなっている。
本稿では,新しい構成演算子の利用を可能にする拡散モデルのエネルギーベースパラメータ化を提案する。
これらのサンプルは、幅広い問題にまたがって構成生成の顕著な改善につながっている。
論文 参考訳(メタデータ) (2023-02-22T18:48:46Z) - Hierarchically branched diffusion models for class-conditional
generation [0.8602553195689513]
現在のクラス条件拡散モデルは、フラットな方法で全てのクラス上の拡散過程を暗黙的にモデル化する。
クラス条件生成のための新しいフレームワークとして階層的分岐拡散モデルを提案する。
いくつかのベンチマークと大規模実世界の科学データセット上で分岐拡散モデルを広範囲に評価した。
論文 参考訳(メタデータ) (2022-12-21T05:27:23Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model [79.50701155336196]
Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。
私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-11-15T17:44:05Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - A Survey on Generative Diffusion Model [75.51029309815213]
拡散モデルには、遅い生成過程の自然な欠点があり、多くの強化された研究につながっている。
本稿では,学習スケジュール,トレーニング不要サンプリング,混合モデリング,スコア・アンド・拡散統一といった,拡散モデルを高速化する高度な手法を提案する。
拡散モデルを持つアプリケーションは、コンピュータビジョン、シーケンスモデリング、オーディオ、科学のためのAIを含む。
論文 参考訳(メタデータ) (2022-09-06T16:56:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。