Fugu-MT 論文翻訳(概要): MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model

論文の概要: MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model

arxiv url: http://arxiv.org/abs/2412.01284v2
Date: Wed, 18 Dec 2024 01:56:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:51.914203
Title: MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model
Title（参考訳）: MFTF: マスクフリートレーニングフリーオブジェクトレベルレイアウト制御拡散モデル
Authors: Shan Yang,
Abstract要約: MFTF(Msk-free Training-free Object-Level Layout Control Diffusion Model) MFTFは、追加のマスクや画像を必要とすることなく、オブジェクトの位置を正確に制御する。
参考スコア（独自算出の注目度）: 11.699591936909325
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-image generation models have revolutionized content creation, but diffusion-based vision-language models still face challenges in precisely controlling the shape, appearance, and positional placement of objects in generated images using text guidance alone. Existing global image editing models rely on additional masks or images as guidance to achieve layout control, often requiring retraining of the model. While local object-editing models allow modifications to object shapes, they lack the capability to control object positions. To address these limitations, we propose the Mask-free Training-free Object-Level Layout Control Diffusion Model (MFTF), which provides precise control over object positions without requiring additional masks or images. The MFTF model supports both single-object and multi-object positional adjustments, such as translation and rotation, while enabling simultaneous layout control and object semantic editing. The MFTF model employs a parallel denoising process for both the source and target diffusion models. During this process, attention masks are dynamically generated from the cross-attention layers of the source diffusion model and applied to queries from the self-attention layers to isolate objects. These queries, generated in the source diffusion model, are then adjusted according to the layout control parameters and re-injected into the self-attention layers of the target diffusion model. This approach ensures accurate and precise positional control of objects. Project source code available at https://github.com/syang-genai/MFTF.
Abstract（参考訳）: テキスト・ツー・イメージ生成モデルはコンテンツ生成に革命をもたらしたが、拡散に基づく視覚言語モデルは、テキストガイダンスだけで生成された画像中のオブジェクトの形状、外観、位置を正確に制御する上で、依然として課題に直面している。既存のグローバルな画像編集モデルは、レイアウト制御を達成するためのガイダンスとして追加のマスクやイメージに依存しており、しばしばモデルの再トレーニングを必要としている。局所的なオブジェクト編集モデルはオブジェクト形状の変更を可能にするが、オブジェクトの位置を制御する能力は欠如している。これらの制約に対処するため,マスクや画像の追加を必要とせず,対象位置を正確に制御するMask-free Training-Level Layout Control Diffusion Model (MFTF)を提案する。 MFTFモデルは、単一オブジェクトと多オブジェクトの位置調整(翻訳や回転など)の両方をサポートし、同時にレイアウト制御とオブジェクトの意味編集を可能にする。 MFTFモデルは、ソースモデルとターゲット拡散モデルの両方に並列デノナイジングプロセスを用いる。この過程で、アテンションマスクはソース拡散モデルのクロスアテンション層から動的に生成され、自己アテンション層からのクエリに適用されてオブジェクトを分離する。これらのクエリは、ソース拡散モデルで生成され、レイアウト制御パラメータに従って調整され、ターゲット拡散モデルの自己保持層に再注入される。このアプローチは、オブジェクトの正確かつ正確な位置制御を保証する。プロジェクトのソースコードはhttps://github.com/syang-genai/MFTF.comで公開されている。

関連論文リスト

STAY Diffusion: Styled Layout Diffusion Model for Diverse Layout-to-Image Generation [4.769823364778397]
本稿では,写真リアルな画像を生成する拡散モデルを提案し,シーン内のスタイリングされたオブジェクトのきめ細かい制御を実現する。提案手法は,各レイアウトのグローバルな条件と,重み変調のための自己教師付きセマンティックマップを学習する。オブジェクトの関係を捉えるためのグローバル条件とイメージ特徴をクロスコンディションするために、新しいスタイルマスク注意(SM Attention)も導入された。
論文参考訳（メタデータ） (2025-03-15T17:36:24Z)
DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models [79.0135981840682]
DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
論文参考訳（メタデータ） (2024-10-10T17:59:48Z)
DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文参考訳（メタデータ） (2024-06-03T17:59:53Z)
DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文参考訳（メタデータ） (2023-07-05T16:43:56Z)
Harnessing the Spatial-Temporal Attention of Diffusion Models for High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-07T23:49:34Z)
PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文参考訳（メタデータ） (2023-03-30T17:13:56Z)
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文参考訳（メタデータ） (2023-03-30T06:56:12Z)
MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文参考訳（メタデータ） (2023-03-17T08:35:17Z)
Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。 Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文参考訳（メタデータ） (2023-03-01T06:35:42Z)
Shape-Guided Diffusion with Inside-Outside Attention [60.557437251084465]
テキストから画像への拡散モデルにおけるユーザ制御の新たな形態として,正確なオブジェクトシルエットを導入する。トレーニング不要な手法は、内外注意機構を用いて、交差及び自己注意マップに形状制約を適用する。
論文参考訳（メタデータ） (2022-12-01T01:39:28Z)
Learning Layout and Style Reconfigurable GANs for Controllable Image Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文参考訳（メタデータ） (2020-03-25T18:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。