論文の概要: Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model
- arxiv url: http://arxiv.org/abs/2211.08332v1
- Date: Tue, 15 Nov 2022 17:44:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:21:37.389294
- Title: Versatile Diffusion: Text, Images and Variations All in One Diffusion
Model
- Title(参考訳): 万能拡散:1つの拡散モデルにおけるテキスト、画像、バリエーション
- Authors: Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi
- Abstract要約: 近年の拡散モデルの発展は、多くの世代における重要なマイルストーンとなっている。
既存の単一フロー拡散パイプラインを Versatile Diffusion (VD) と呼ばれるマルチフローネットワークに拡張する。
VDは1つの統一されたモデルで、テキスト・ツー・イメージ・トゥ・テキスト、イメージ・ヴァレージョン、およびテキスト・ヴァレージョンを処理する。
- 参考スコア(独自算出の注目度): 79.50701155336196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent advances in diffusion models have set an impressive milestone in
many generation tasks. Trending works such as DALL-E2, Imagen, and Stable
Diffusion have attracted great interest in academia and industry. Despite the
rapid landscape changes, recent new approaches focus on extensions and
performance rather than capacity, thus requiring separate models for separate
tasks. In this work, we expand the existing single-flow diffusion pipeline into
a multi-flow network, dubbed Versatile Diffusion (VD), that handles
text-to-image, image-to-text, image-variation, and text-variation in one
unified model. Moreover, we generalize VD to a unified multi-flow multimodal
diffusion framework with grouped layers, swappable streams, and other
propositions that can process modalities beyond images and text. Through our
experiments, we demonstrate that VD and its underlying framework have the
following merits: a) VD handles all subtasks with competitive quality; b) VD
initiates novel extensions and applications such as disentanglement of style
and semantic, image-text dual-guided generation, etc.; c) Through these
experiments and applications, VD provides more semantic insights of the
generated outputs. Our code and models are open-sourced at
https://github.com/SHI-Labs/Versatile-Diffusion.
- Abstract(参考訳): 近年の拡散モデルの発展は、多くの世代のタスクにおいて驚くべきマイルストーンとなった。
DALL-E2、Imagen、Stable Diffusionなどのトレンド作品は、学術と産業に大きな関心を集めている。
急速なランドスケープの変化にもかかわらず、最近の新しいアプローチはキャパシティではなく拡張とパフォーマンスに焦点を当てている。
本研究では,既存の単一フロー拡散パイプラインを,画像間テキスト・画像間・画像変数・テキスト変数を1つの統一モデルで処理する多元性拡散(vd)と呼ばれるマルチフローネットワークに拡張する。
さらに,VDを,画像やテキスト以外のモダリティを処理可能な,グループ層やスワップ可能なストリームなどを備えた統合マルチフローマルチモーダル拡散フレームワークに一般化する。
実験を通じて、VDとその基盤となるフレームワークには以下のメリットがあることを示した。
a) VDは,競争力のある品質ですべてのサブタスクを処理する
b)VDは,スタイル及び意味の絡み合い,画像テキスト二重誘導生成等の新規な拡張及び適用を開始する。
;
c) これらの実験と応用を通して、VDは生成された出力についてよりセマンティックな洞察を提供する。
私たちのコードとモデルは、https://github.com/shi-labs/versatile-diffusionでオープンソースです。
関連論文リスト
- Efficient Multimodal Diffusion Models Using Joint Data Infilling with
Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。
また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。
我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文 参考訳(メタデータ) (2023-11-28T04:34:44Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - DifFSS: Diffusion Model for Few-Shot Semantic Segmentation [24.497112957831195]
本稿では,DifFSSと呼ばれるFSSタスクの拡散モデルを活用するための最初の研究について述べる。
新たなFSSパラダイムであるDifFSSは、ネットワーク構造を変更することなく、最先端のFSSモデルの性能をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-07-03T06:33:49Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based
Image Editing [98.30393804479152]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Collaborative Diffusion for Multi-Modal Face Generation and Editing [34.16906110777047]
本稿では,事前学習した単モーダル拡散モデルと協調して複数モーダル顔の生成と編集を行うコラボレーティブ拡散について述べる。
具体的には、事前学習された各ユニモーダルモデルに対する空間的時間的影響関数を予測することにより、マルチモーダルな認知ステップを適応的に幻覚するメタネットワークである動的ディフューザを提案する。
論文 参考訳(メタデータ) (2023-04-20T17:59:02Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Unite and Conquer: Plug & Play Multi-Modal Synthesis using Diffusion
Models [54.1843419649895]
拡散確率モデル(DDPM)に基づく解を提案する。
他の生成モデルよりも拡散モデルを選択する動機は、拡散モデルの柔軟な内部構造に由来する。
提案手法は,複数のサブタスクで訓練された複数の拡散モデルを統一し,組み合わせたタスクを克服する。
論文 参考訳(メタデータ) (2022-12-01T18:59:55Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。