Fugu-MT 論文翻訳(概要): Versatile Diffusion: Text, Images and Variations All in One Diffusion Model

論文の概要: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model

arxiv url: http://arxiv.org/abs/2211.08332v3
Date: Thu, 23 Mar 2023 07:13:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 17:59:52.148029
Title: Versatile Diffusion: Text, Images and Variations All in One Diffusion Model
Title（参考訳）: 万能拡散:1つの拡散モデルにおけるテキスト、画像、バリエーション
Authors: Xingqian Xu, Zhangyang Wang, Eric Zhang, Kai Wang, Humphrey Shi
Abstract要約: Versatile Diffusionは、テキスト・ツー・イメージ、画像・ツー・テキスト、バリエーションの複数のフローを1つの統一モデルで処理する。私たちのコードとモデルはhttps://github.com/SHI-Labs/Versatile-Diffusion.comでオープンソース化されています。
参考スコア（独自算出の注目度）: 79.50701155336196
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in diffusion models have set an impressive milestone in many generation tasks, and trending works such as DALL-E2, Imagen, and Stable Diffusion have attracted great interest. Despite the rapid landscape changes, recent new approaches focus on extensions and performance rather than capacity, thus requiring separate models for separate tasks. In this work, we expand the existing single-flow diffusion pipeline into a multi-task multimodal network, dubbed Versatile Diffusion (VD), that handles multiple flows of text-to-image, image-to-text, and variations in one unified model. The pipeline design of VD instantiates a unified multi-flow diffusion framework, consisting of sharable and swappable layer modules that enable the crossmodal generality beyond images and text. Through extensive experiments, we demonstrate that VD successfully achieves the following: a) VD outperforms the baseline approaches and handles all its base tasks with competitive quality; b) VD enables novel extensions such as disentanglement of style and semantics, dual- and multi-context blending, etc.; c) The success of our multi-flow multimodal framework over images and text may inspire further diffusion-based universal AI research. Our code and models are open-sourced at https://github.com/SHI-Labs/Versatile-Diffusion.
Abstract（参考訳）: 近年の拡散モデルの発展は多くの世代で目覚ましいマイルストーンとなり、DALL-E2、Imagen、Stable Diffusionといったトレンド作品が注目されている。急速なランドスケープの変化にもかかわらず、最近の新しいアプローチはキャパシティではなく拡張とパフォーマンスに焦点を当てている。本研究では,既存の単一フロー拡散パイプラインを多タスクマルチモーダルネットワークに拡張し,汎用拡散 (vd) と呼ばれる,複数のテキスト・画像・画像・テキスト間の流れを1つの統一モデルで処理する。 VDのパイプライン設計は、画像やテキストを超えたクロスモーダルな一般化を可能にする、共有および交換可能なレイヤモジュールからなる、統一されたマルチフロー拡散フレームワークをインスタンス化する。広範な実験を通して、VDは以下のことを達成できたことを実証する。 a)vdは,ベースラインアプローチを上回り,その基本タスクを競争品質で処理する。 b)VDは,スタイル及びセマンティクスの切り離し,二重・複数コンテキストのブレンディング等の新規な拡張を可能にする。 ; c)画像とテキストに対するマルチフローマルチモーダルフレームワークの成功は、さらなる拡散に基づくユニバーサルAI研究を刺激する可能性がある。私たちのコードとモデルは、https://github.com/shi-labs/versatile-diffusionでオープンソースです。

関連論文リスト

Lumina-DiMOO: An Omni Diffusion Large Language Model for Multi-Modal Generation and Understanding [134.93925077411564]
Lumina-DiMOOは、シームレスなマルチモーダル生成と理解のためのオープンソースの基礎モデルである。完全に離散的な拡散モデリングを使用して、様々なモードにわたる入力と出力を処理する。複数のベンチマークで最先端のパフォーマンスを実現し、既存のオープンソース統一マルチモーダルモデルを上回っている。
論文参考訳（メタデータ） (2025-10-07T17:59:20Z)
Query-Kontext: An Unified Multimodal Model for Image Generation and Editing [53.765351127477224]
統一マルチモーダルモデル(UMM)はテキスト・ツー・イメージ生成(T2I)と編集(TI2I)において顕著な性能を示した。本稿では,マルチモーダル入力から符号化されたセマンティックキューと粗粒度画像条件からなるマルチモーダルコンテクス」を用いて,VLMと拡散モデルをブリッジする新しいアプローチであるQuery-Kontextを紹介する。実験により,本手法は強い統一ベースラインと一致し,いくつかのケースにおいてタスク固有の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2025-09-30T17:59:46Z)
Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
MMGen: Unified Multi-modal Image Generation and Understanding in One Go [60.97155790727879]
本稿では,複数の生成タスクを単一の拡散モデルに統合する統合フレームワークMMGenを紹介する。提案手法は,マルチモーダル出力を柔軟にサポートし,単純なモーダルデカップリング戦略とともに,新しい拡散トランスフォーマを開発する。
論文参考訳（メタデータ） (2025-03-26T15:37:17Z)
Upcycling Text-to-Image Diffusion Models for Multi-Task Capabilities [8.81828807024982]
マルチタスク・アップサイクリング(Multi-Task Upcycling, MTU)は、トレーニング済みのテキスト・ツー・イメージ拡散モデルの能力を拡張し、様々な画像・画像生成タスクをサポートするレシピである。 MTUは、マルチタスクとデバイス上の互換性をシームレスにブレンドする最初のマルチタスク拡散モデリング手法である。 MTUの性能は,複数のタスクにまたがる単一タスクの微調整拡散モデルと同等であることを示す。
論文参考訳（メタデータ） (2025-03-14T22:19:20Z)
Dual Diffusion for Unified Image Generation and Understanding [32.7554623473768]
マルチモーダル理解と生成のための大規模かつ完全なエンドツーエンド拡散モデルを提案する。我々は、画像とテキストの条件付き確率を同時にトレーニングするクロスモーダル最大推定フレームワークを活用する。我々のモデルは、最近の統合画像理解・生成モデルと比較して、競争性能が向上した。
論文参考訳（メタデータ） (2024-12-31T05:49:00Z)
Diffusion Models For Multi-Modal Generative Modeling [32.61765315067488]
本稿では,共通拡散空間における統一多モード拡散モデルを構築することにより,拡散モデルを定義するための原理的手法を提案する。本稿では,画像遷移,マスクイメージトレーニング,共同画像ラベル,共同画像表現生成モデリングなどのフレームワークを検証するために,複数のマルチモーダル生成設定を提案する。
論文参考訳（メタデータ） (2024-07-24T18:04:17Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。 SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文参考訳（メタデータ） (2024-04-22T17:56:09Z)
Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文参考訳（メタデータ） (2024-04-03T23:20:40Z)
MM-Diff: High-Fidelity Image Personalization via Multi-Modal Condition Integration [7.087475633143941]
MM-Diffはチューニング不要な画像パーソナライズフレームワークで、単写体と複数体の高忠実度画像を数秒で生成できる。 MM-Diff は視覚エンコーダを用いて入力画像を CLS に変換し、埋め込みをパッチする。一方、CLS埋め込みはテキスト埋め込みを強化するために使用され、一方、パッチ埋め込みと共に、少数の詳細に富んだ主題埋め込みを導出する。
論文参考訳（メタデータ） (2024-03-22T09:32:31Z)
On the Multi-modal Vulnerability of Diffusion Models [56.08923332178462]
本稿では,MMP-Attackによる拡散モデル生成結果の操作について,特定の接尾辞を元のプロンプトに付加することで提案する。我々のゴールは、拡散モデルを誘導し、元のオブジェクトを同時に除去しながら特定のオブジェクトを生成することである。
論文参考訳（メタデータ） (2024-02-02T12:39:49Z)
Efficient Multimodal Diffusion Models Using Joint Data Infilling with Partially Shared U-Net [20.437172251393257]
部分共有U-Net (PS-U-Net) は、テキストと画像の入力を専用層を通過させ、モダリティ固有の細かな詳細を保存するためのスキップ接続を可能にする効率的なマルチモーダル拡散モデルである。また,画像インパインティングに着想を得て,簡単な関節分布の学習を必要とせず,条件付き生成の新しいシナリオを導入する,効率的なマルチモーダルサンプリング手法を提案する。我々はMS-COCOデータセットを実験的に探索し,既存のマルチモーダル拡散モデルと比較して高画質のマルチモーダルテキストと画像データを生成することを示した。
論文参考訳（メタデータ） (2023-11-28T04:34:44Z)
DiffBlender: Composable and Versatile Multimodal Text-to-Image Diffusion Models [20.281651578265624]
一つのアーキテクチャ内で3つのモードを全て処理できるマルチモーダルなT2I拡散モデルを提案する。我々は、DiffBlenderが複数の情報ソースを効果的に統合し、詳細な画像合成における多様な応用を支援することを実証した。
論文参考訳（メタデータ） (2023-05-24T14:31:20Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文参考訳（メタデータ） (2023-02-16T06:28:29Z)
Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文参考訳（メタデータ） (2022-11-27T14:46:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。