論文の概要: MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model
- arxiv url: http://arxiv.org/abs/2412.01284v1
- Date: Mon, 02 Dec 2024 08:56:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:55.829917
- Title: MFTF: Mask-free Training-free Object Level Layout Control Diffusion Model
- Title(参考訳): MFTF: マスクフリートレーニングフリーオブジェクトレベルレイアウト制御拡散モデル
- Authors: Shan Yang,
- Abstract要約: 拡散に基づく視覚言語モデルには、生成画像中の物体の形状、外観、位置を正確に制御する能力がない。
マスクや画像の追加を必要とせずにオブジェクトの位置を正確に制御できるMFTFモデルを提案する。
これは拡散モデルの分極過程を並列分極により制御することによって達成される。
- 参考スコア(独自算出の注目度): 11.699591936909325
- License:
- Abstract: Text-to-image generation models have become transformative tools. However, diffusion-based vision language models still lack the ability to precisely control the shape, appearance, and positional placement of objects in generated images using text guidance alone. Global image editing models typically achieve global layout control by relying on additional masks or images as guidance, which often require model training. Although local object-editing models enable modification of object shapes, they do not provide control over the positional placement of these objects. To address these limitations, we propose the MFTF model, which enables precise control over object positioning without requiring additional masks or images. The MFTF model supports both single-object and multi-object positional control (such as translation, rotation, etc.) and allows for concurrent layout control and object semantic editing. This is achieved by controlling the denoising process of the diffusion model through parallel denoising. Attention masks are dynamically generated from the cross-attention layers of the source diffusion model and applied to queries from the self-attention layers to isolate objects. These queries are then modified according to layout control parameters and injected back into the self-attention layers of the target diffusion model to enable precise positional control.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、トランスフォーメーションツールになりつつある。
しかし、拡散型視覚言語モデルには、テキストガイダンスだけで生成された画像中の物体の形状、外観、位置を正確に制御する能力がない。
グローバルな画像編集モデルは、通常、モデルトレーニングを必要とする追加のマスクやイメージをガイダンスとして頼りにすることで、グローバルなレイアウト制御を実現する。
局所的なオブジェクト編集モデルはオブジェクト形状の修正を可能にするが、これらのオブジェクトの位置配置を制御できない。
これらの制約に対処するため、マスクや画像の追加を必要とせず、オブジェクトの位置を正確に制御できるMFTFモデルを提案する。
MFTFモデルは、単一オブジェクトと複数オブジェクトの位置制御(翻訳、回転など)の両方をサポートし、同時にレイアウト制御とオブジェクトの意味編集を可能にする。
これは拡散モデルの分極過程を並列分極により制御することによって達成される。
アテンションマスクはソース拡散モデルのクロスアテンション層から動的に生成され、自己アテンション層からのクエリに適用してオブジェクトを分離する。
これらのクエリは、レイアウト制御パラメータに従って変更され、ターゲット拡散モデルの自己アテンション層に注入され、正確な位置制御を可能にする。
関連論文リスト
- DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models [79.0135981840682]
DICE(Discrete Inversion for Controllable Editing)を導入し,離散拡散モデルの正確なインバージョンを実現する。
逆拡散過程におけるノイズシーケンスとマスキングパターンを記録することにより、DICEは離散データの正確な再構成とフレキシブルな編集を可能にする。
以上の結果から,DICEは高いデータ忠実性を保ちながら編集能力を向上し,離散空間における微細なコンテンツ操作の新たな機会を提供する。
論文 参考訳(メタデータ) (2024-10-10T17:59:48Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DisControlFace: Adding Disentangled Control to Diffusion Autoencoder for One-shot Explicit Facial Image Editing [14.537856326925178]
我々は、生成的顔画像編集のきめ細かい制御の探索に焦点をあてる。
本稿では,DisControlFaceという,拡散に基づく新しい編集フレームワークを提案する。
我々のモデルは、3Dやビデオデータを必要とすることなく、2Dインザワイルドなポートレート画像を用いて訓練することができる。
論文 参考訳(メタデータ) (2023-12-11T08:16:55Z) - Fine-grained Controllable Video Generation via Object Appearance and
Context [74.23066823064575]
細粒度制御可能なビデオ生成法(FACTOR)を提案する。
FACTORは、オブジェクトの位置とカテゴリを含む、オブジェクトの外観とコンテキストを制御することを目的としている。
本手法は,オブジェクトの外観を微調整せずに制御し,オブジェクトごとの最適化作業を省く。
論文 参考訳(メタデータ) (2023-12-05T17:47:33Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - Harnessing the Spatial-Temporal Attention of Diffusion Models for
High-Fidelity Text-to-Image Synthesis [59.10787643285506]
拡散に基づくモデルは、テキストと画像の合成タスクで最先端のパフォーマンスを達成した。
これらのモデルの1つの重要な制限は、テキスト記述に関して生成された画像の忠実度が低いことである。
本研究では,拡散モデルにおける空間的時間的相互アテンションを明示的に制御する新しいテキスト・ツー・イメージアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-07T23:49:34Z) - MODIFY: Model-driven Face Stylization without Style Images [77.24793103549158]
既存の顔のスタイリング手法は、翻訳プロセス中に常にターゲット(スタイル)ドメインの存在を取得する。
そこで本研究では,MODel-drIven Face stYlization (MODIFY) と呼ばれる新たな手法を提案する。
複数の異なるデータセットに対する実験結果は、教師なし顔のスタイリングにおけるMODIFYの有効性を検証した。
論文 参考訳(メタデータ) (2023-03-17T08:35:17Z) - Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文 参考訳(メタデータ) (2023-03-01T06:35:42Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。