Fugu-MT 論文翻訳(概要): DiffX: Guide Your Layout to Cross-Modal Generative Modeling

論文の概要: DiffX: Guide Your Layout to Cross-Modal Generative Modeling

arxiv url: http://arxiv.org/abs/2407.15488v2
Date: Sun, 28 Jul 2024 11:57:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 20:31:59.697660
Title: DiffX: Guide Your Layout to Cross-Modal Generative Modeling
Title（参考訳）: DiffX: クロスモーダルな生成モデルにレイアウトをガイドする
Authors: Zeyu Wang, Jingyu Lin, Yifei Qian, Yi Huang, Shicen Tian, Bosong Chai, Juncan Deng, Lan Du, Cunjian Chen, Yufei Guo, Kejie Huang,
Abstract要約: DiffXと呼ばれる一般的なレイアウト誘導型RGB+X'生成のための新しい拡散モデルを提案する。手動補正により補足された画像キャプションにLLaVAを用いてテキスト記述によるクロスモーダル画像データセットを構築する。広範な実験を通じて、DiffXは3つのRGB+Xデータセットにわたるクロスモーダル生成の堅牢性と柔軟性を示す。
参考スコア（独自算出の注目度）: 12.462597510264164
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have made significant strides in language-driven and layout-driven image generation. However, most diffusion models are limited to visible RGB image generation. In fact, human perception of the world is enriched by diverse viewpoints, including chromatic contrast, thermal illumination, and depth information. In this paper, we introduce a novel diffusion model for general layout-guided cross-modal ``RGB+X'' generation, called DiffX. Firstly, we construct the cross-modal image datasets with text description by using LLaVA for image captioning, supplemented by manual corrections. Notably, DiffX presents a simple yet effective cross-modal generative modeling pipeline, which conducts diffusion and denoising processes in the modality-shared latent space, facilitated by our Dual Path Variational AutoEncoder (DP-VAE). Moreover, we introduce the joint-modality embedder, which incorporates a gated cross-attention mechanism to link layout and text conditions. Meanwhile, the advanced Long-CLIP is employed for long caption embedding to improve user guidance. Through extensive experiments, DiffX demonstrates robustness and flexibility in cross-modal generation across three RGB+X datasets: FLIR, MFNet, and COME15K, guided by various layout types. It also shows the potential for adaptive generation of ``RGB+X+Y'' or more diverse modalities. Our code and constructed cross-modal image datasets are available at https://github.com/zeyuwang-zju/DiffX.
Abstract（参考訳）: 拡散モデルは言語駆動とレイアウト駆動の画像生成において大きな進歩を遂げている。しかし、ほとんどの拡散モデルは可視RGB画像生成に限られている。実際、世界の人間の知覚は、色調コントラスト、熱照明、深度情報など、様々な視点で富んでいる。本稿ではDiffXと呼ばれる一般レイアウト誘導型クロスモーダル ``RGB+X'' 生成のための新しい拡散モデルを提案する。まず,手動補正により補足された画像キャプションにLLaVAを用いて,テキスト記述によるクロスモーダル画像データセットを構築する。特に、DiffXは単純だが効果的なクロスモーダル生成モデリングパイプラインを示し、このパイプラインはモダリティ共有された潜在空間における拡散とデノゲーションプロセスを実行し、Dual Path Variational AutoEncoder (DP-VAE) によって促進される。さらに,レイアウトとテキスト条件をリンクするゲート型クロスアテンション機構を組み込んだ共同モダリティ埋め込みを導入する。一方、Long-CLIPは長いキャプションの埋め込みに使われ、ユーザーガイダンスを改善している。広範な実験を通じて、DiffXは3つのRGB+Xデータセット(FLIR、MFNet、COME15K)にわたるクロスモーダル生成の堅牢性と柔軟性を示す。また、 ``RGB+X+Y'' あるいはより多様なモダリティを適応的に生成する可能性も示している。私たちのコードとクロスモーダルなイメージデータセットはhttps://github.com/zeyuwang-zju/DiffX.comで公開されています。

関連論文リスト

Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
X-Drive: Cross-modality consistent multi-sensor data synthesis for driving scenarios [105.16073169351299]
本稿では,点雲と多視点画像の連成分布をモデル化する新しいフレームワーク,X-DRIVEを提案する。 2つのモダリティの異なる幾何学的空間を考えると、X-DRIVE条件は対応する局所領域上の各モダリティの合成である。 X-DRIVEはテキスト、バウンディングボックス、画像、点雲を含む多レベル入力条件を通じて制御可能な生成を可能にする。
論文参考訳（メタデータ） (2024-11-02T03:52:12Z)
MFCLIP: Multi-modal Fine-grained CLIP for Generalizable Diffusion Face Forgery Detection [64.29452783056253]
フォトリアリスティック・フェイスジェネレーション手法の急速な発展は、社会やアカデミックにおいて大きな関心を集めている。既存のアプローチは主に画像モダリティを用いて顔の偽造パターンをキャプチャするが、きめ細かいノイズやテキストのような他のモダリティは完全には探索されていない。そこで本研究では,画像ノイズの多点にわたる包括的かつきめ細かなフォージェリートレースをマイニングする,MFCLIP(MF-modal Fine-fine-fine-fine-fine-fine CLIP)モデルを提案する。
論文参考訳（メタデータ） (2024-09-15T13:08:59Z)
Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。第2段階では,Diff-Prior という画像強調戦略を提案する。
論文参考訳（メタデータ） (2024-06-02T06:23:05Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。 ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文参考訳（メタデータ） (2023-11-24T15:20:01Z)
DiffDis: Empowering Generative Diffusion Model with Cross-Modal Discrimination Capability [75.9781362556431]
本稿では,拡散過程下での1つのフレームワークに,モダクティブと差別的事前学習を統一するDiffDisを提案する。 DiffDisは画像生成タスクと画像テキスト識別タスクの両方において単一タスクモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2023-08-18T05:03:48Z)
LayoutDiffuse: Adapting Foundational Diffusion Models for Layout-to-Image Generation [24.694298869398033]
提案手法は,高い知覚品質とレイアウトアライメントの両面から画像を生成し,効率よく訓練する。提案手法は, GAN, VQ-VAE, 拡散モデルに基づく他の10種類の生成モデルよりも優れていた。
論文参考訳（メタデータ） (2023-02-16T14:20:25Z)
Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-01-26T19:18:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。