論文の概要: DiffX: Guide Your Layout to Cross-Modal Generative Modeling
- arxiv url: http://arxiv.org/abs/2407.15488v1
- Date: Mon, 22 Jul 2024 09:05:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 15:31:05.262130
- Title: DiffX: Guide Your Layout to Cross-Modal Generative Modeling
- Title(参考訳): DiffX: クロスモーダルな生成モデルにレイアウトをガイドする
- Authors: Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang,
- Abstract要約: DiffXと呼ばれる一般的なレイアウト誘導型RGB+X生成のための新しい拡散モデルを提案する。
画像キャプションにLLaVAモデルを用いたテキスト記述を用いたクロスモーダル画像データセットを構築し,手作業による補正を行った。
広範な実験を通じて、DiffXは3つのRGB+Xデータセットにわたるクロスモーダル生成の堅牢性と柔軟性を示す。
- 参考スコア(独自算出の注目度): 12.462597510264164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have made significant strides in text-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, including chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal "RGB+X" generation, called DiffX. We firstly construct the cross-modal image datasets with text descriptions using the LLaVA model for image captioning, supplemented by manual corrections. Notably, DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space, facilitated by our Dual-Path Variational AutoEncoder (DP-VAE). Furthermore, we incorporate the gated cross-attention mechanism to connect the layout and text conditions, leveraging Long-CLIP for embedding long captions to enhance user guidance. Through extensive experiments, DiffX demonstrates robustness and flexibility in cross-modal generation across three RGB+X datasets: FLIR, MFNet, and COME15K, guided by various layout types. It also shows the potential for adaptive generation of "RGB+X+Y" or more diverse modalities. Our code and processed image captions are available at https://github.com/zeyuwang-zju/DiffX.
- Abstract(参考訳): 拡散モデルはテキスト駆動およびレイアウト駆動の画像生成において大きな進歩を遂げている。
しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。
実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報など、様々な視点で富んでいる。
本稿では,DiffX と呼ばれる一般レイアウト誘導型クロスモーダル "RGB+X" 生成のための新しい拡散モデルを提案する。
まず,手動補正により補足された画像キャプションのためのLLaVAモデルを用いて,テキスト記述によるクロスモーダル画像データセットを構築する。
特に、DiffXは単純だが効果的なクロスモーダルな生成モデルパイプラインを示し、このパイプラインは、Dual-Path Variational AutoEncoder (DP-VAE) によって促進されるモード共有潜在空間における拡散および偏極プロセスを実行する。
さらに,長い字幕を埋め込むためにLong-CLIPを利用してユーザガイダンスを強化することで,レイアウトとテキスト条件を接続するためのゲートクロスアテンション機構を組み込んだ。
広範な実験を通じて、DiffXは3つのRGB+Xデータセット(FLIR、MFNet、COME15K)にわたるクロスモーダル生成の堅牢性と柔軟性を示す。
また、「RGB+X+Y」あるいはより多様なモダリティを適応的に生成する可能性も示している。
私たちのコードと画像処理された画像キャプションはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。
関連論文リスト
- X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios [105.16073169351299]
本稿では,点雲と多視点画像の連成分布をモデル化する新しいフレームワーク,X-DRIVEを提案する。
2つのモダリティの異なる幾何学的空間を考えると、X-DRIVE条件は対応する局所領域上の各モダリティの合成である。
X-DRIVEはテキスト、バウンディングボックス、画像、点雲を含む多レベル入力条件を通じて制御可能な生成を可能にする。
論文 参考訳(メタデータ) (2024-11-02T03:52:12Z) - MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。
既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。
そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-15T13:08:59Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - DiffDis: Empowering Generative Diffusion Model with Cross-Modal
Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。
DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-18T05:03:48Z) - LayoutDiffuse: Adapting Foundational Diffusion Models for
Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。
提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-02-16T14:20:25Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。