論文の概要: DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting
- arxiv url: http://arxiv.org/abs/2411.17223v1
- Date: Tue, 26 Nov 2024 08:44:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:03.735674
- Title: DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting
- Title(参考訳): DreamMix: カスタムイメージインペイントにおける編集性向上のためのオブジェクト属性の分離
- Authors: Yicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu,
- Abstract要約: 本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
- 参考スコア(独自算出の注目度): 63.01425442236011
- License:
- Abstract: Subject-driven image inpainting has emerged as a popular task in image editing alongside recent advancements in diffusion models. Previous methods primarily focus on identity preservation but struggle to maintain the editability of inserted objects. In response, this paper introduces DreamMix, a diffusion-based generative model adept at inserting target objects into given scenes at user-specified locations while concurrently enabling arbitrary text-driven modifications to their attributes. In particular, we leverage advanced foundational inpainting models and introduce a disentangled local-global inpainting framework to balance precise local object insertion with effective global visual coherence. Additionally, we propose an Attribute Decoupling Mechanism (ADM) and a Textual Attribute Substitution (TAS) module to improve the diversity and discriminative capability of the text-based attribute guidance, respectively. Extensive experiments demonstrate that DreamMix effectively balances identity preservation and attribute editability across various application scenarios, including object insertion, attribute editing, and small object inpainting. Our code is publicly available at https://github.com/mycfhs/DreamMix.
- Abstract(参考訳): 近年の拡散モデルの発展とともに画像編集における課題として,被写体による画像インパインティングが登場している。
それまでの方法は、主にアイデンティティの保存に重点を置いていたが、挿入されたオブジェクトの編集性を維持するのに苦労していた。
そこで本研究では,ユーザが指定した場所の特定のシーンに対象オブジェクトを挿入すると同時に,任意のテキスト駆動による属性変更を同時に可能にした拡散型生成モデルDreamMixを提案する。
特に,先進的な基本塗装モデルを活用し,局所物体の正確な挿入と効果的な大域的視覚的コヒーレンスとのバランスをとるために,非絡み合いの局所的塗装フレームワークを導入する。
さらに、テキストベースの属性ガイダンスの多様性と識別能力を向上させるために、属性分離機構(ADM)とテキスト属性置換(TAS)モジュールを提案する。
広範囲にわたる実験により、DreamMixは、オブジェクト挿入、属性編集、小さなオブジェクトのインペイントなど、さまざまなアプリケーションシナリオ間で、IDの保存と属性の編集性を効果的にバランスしていることが示されている。
私たちのコードはhttps://github.com/mycfhs/DreamMix.comで公開されています。
関連論文リスト
- SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文 参考訳(メタデータ) (2023-03-01T06:35:42Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。