論文の概要: Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis
- arxiv url: http://arxiv.org/abs/2504.01515v1
- Date: Wed, 02 Apr 2025 09:00:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:24:27.051868
- Title: Training-free Dense-Aligned Diffusion Guidance for Modular Conditional Image Synthesis
- Title(参考訳): モード条件画像合成のための訓練不要高濃度拡散誘導
- Authors: Zixuan Wang, Duo Peng, Feng Chen, Yuwei Yang, Yinjie Lei,
- Abstract要約: 条件付き画像合成は、芸術的創造や仮想現実といった幅広い応用において重要な課題である。
本稿では,条件付き画像合成を多種多様な条件単位のモジュラー結合として扱う新しい手法を提案する。
我々のフレームワークは、多様な条件生成タスクに対するモデルの適応性を向上し、その適用範囲を大幅に拡大します。
- 参考スコア(独自算出の注目度): 23.004211144930302
- License:
- Abstract: Conditional image synthesis is a crucial task with broad applications, such as artistic creation and virtual reality. However, current generative methods are often task-oriented with a narrow scope, handling a restricted condition with constrained applicability. In this paper, we propose a novel approach that treats conditional image synthesis as the modular combination of diverse fundamental condition units. Specifically, we divide conditions into three primary units: text, layout, and drag. To enable effective control over these conditions, we design a dedicated alignment module for each. For the text condition, we introduce a Dense Concept Alignment (DCA) module, which achieves dense visual-text alignment by drawing on diverse textual concepts. For the layout condition, we propose a Dense Geometry Alignment (DGA) module to enforce comprehensive geometric constraints that preserve the spatial configuration. For the drag condition, we introduce a Dense Motion Alignment (DMA) module to apply multi-level motion regularization, ensuring that each pixel follows its desired trajectory without visual artifacts. By flexibly inserting and combining these alignment modules, our framework enhances the model's adaptability to diverse conditional generation tasks and greatly expands its application range. Extensive experiments demonstrate the superior performance of our framework across a variety of conditions, including textual description, segmentation mask (bounding box), drag manipulation, and their combinations. Code is available at https://github.com/ZixuanWang0525/DADG.
- Abstract(参考訳): 条件付き画像合成は、芸術的創造や仮想現実といった幅広い応用において重要な課題である。
しかし、現在の生成方法は狭い範囲でタスク指向であり、制約のある適用性を持つ制約条件を扱うことが多い。
本稿では,条件付き画像合成を多種多様な条件単位のモジュラー結合として扱う新しい手法を提案する。
具体的には、条件をテキスト、レイアウト、ドラッグの3つの主要なユニットに分割します。
これらの条件を効果的に制御するために、我々はそれぞれ専用のアライメントモジュールを設計する。
そこで本研究では,Dense Concept Alignment (DCA) モジュールを導入した。
レイアウト条件として,空間構成を保存するような包括的幾何学的制約を強制するDense Geometry Alignment (DGA) モジュールを提案する。
ドラッグ条件では,多段動作正則化を適用するためにDense Motion Alignment (DMA) モジュールを導入し,各画素が視覚的アーティファクトなしで所望の軌跡をたどるようにした。
これらのアライメントモジュールを柔軟に挿入・結合することにより、我々のフレームワークは、様々な条件生成タスクへのモデルの適応性を高め、その適用範囲を大きく広げる。
大規模な実験は、テキスト記述、セグメンテーションマスク(バウンディングボックス)、ドラッグ操作、およびそれらの組み合わせなど、さまざまな条件において、我々のフレームワークの優れた性能を示す。
コードはhttps://github.com/ZixuanWang0525/DADGで入手できる。
関連論文リスト
- CrossModalityDiffusion: Multi-Modal Novel View Synthesis with Unified Intermediate Representation [0.5242869847419834]
CrossModalityDiffusion(クロスモダリティ・ディフュージョン)は、シーン幾何学の知識を必要とせず、様々なモダリティにまたがる画像を生成するために設計されたモジュラーフレームワークである。
異なるモジュールを共同でトレーニングすることで、フレームワーク内のすべてのモダリティに対して一貫した幾何学的理解が保証されることを示す。
合成ShapeNet車のデータセット上でのCrossModalityDiffusionの機能を検証する。
論文 参考訳(メタデータ) (2025-01-16T20:56:32Z) - DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。
様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-04T11:54:57Z) - OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction [32.08995899903304]
我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
論文 参考訳(メタデータ) (2024-10-07T11:26:13Z) - Layered Rendering Diffusion Model for Controllable Zero-Shot Image Synthesis [15.76266032768078]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
まず、摂動分布の基本的な空間的キューとして視覚誘導を導入する。
本稿では,複数のレイヤからなる画像レンダリングプロセスを構築する汎用フレームワークであるLayered Rendering Diffusion (LRDiff)を提案する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - SSMG: Spatial-Semantic Map Guided Diffusion Model for Free-form
Layout-to-Image Generation [68.42476385214785]
本稿では,レイアウトから派生した特徴写像を用いた空間意味マップガイド(SSMG)拡散モデルを提案する。
SSMGは,従来の研究に比べて空間的,意味的な制御性に優れた生成品質を実現する。
また,RSA(Relation-Sensitive Attention)機構とLSA(Location-Sensitive Attention)機構を提案する。
論文 参考訳(メタデータ) (2023-08-20T04:09:12Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。