論文の概要: DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting
- arxiv url: http://arxiv.org/abs/2411.17223v2
- Date: Wed, 24 Sep 2025 15:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 14:09:11.114315
- Title: DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting
- Title(参考訳): DreamMix: カスタムイメージインペイントにおける編集性向上のためのオブジェクト属性の分離
- Authors: Yicheng Yang, Pengxiang Li, Lu Zhang, Liqian Ma, Ping Hu, Siyu Du, Yunzhi Zhuge, Xu Jia, Huchuan Lu,
- Abstract要約: 本研究では,ユーザ指定領域に対象オブジェクトを挿入できる拡散型フレームワークDreamMixを提案する。
また,DreamMixは,多様なアプリケーション間での属性保存と属性編集のバランスが良好であることを示す。
- 参考スコア(独自算出の注目度): 56.77074226109392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven image inpainting has recently gained prominence in image editing with the rapid advancement of diffusion models. Beyond image guidance, recent studies have explored incorporating text guidance to achieve identity-preserved yet locally editable object inpainting. However, these methods still suffer from identity overfitting, where original attributes remain entangled with target textual instructions. To overcome this limitation, we propose DreamMix, a diffusion-based framework adept at inserting target objects into user-specified regions while concurrently enabling arbitrary text-driven attribute modifications. DreamMix introduces three key components: (i) an Attribute Decoupling Mechanism (ADM) that synthesizes diverse attribute-augmented image-text pairs to mitigate overfitting; (ii) a Textual Attribute Substitution (TAS) module that isolates target attributes via orthogonal decomposition, and (iii) a Disentangled Inpainting Framework (DIF) that seperates local generation from global harmonization. Extensive experiments across multiple inpainting backbones demonstrate that DreamMix achieves a superior balance between identity preservation and attribute editability across diverse applications, including object insertion, attribute editing, and small object inpainting.
- Abstract(参考訳): 近年,拡散モデルの急激な進歩とともに画像編集において,被写体によるイメージパインティングが注目されている。
近年の研究では、画像ガイダンス以外にも、個人性に保護されているが局所的に編集可能なオブジェクトのインペイントを実現するためのテキストガイダンスの導入が検討されている。
しかし、これらの手法は、元の属性がターゲットのテキスト命令と絡み合っているという、アイデンティティの過度な適合に悩まされている。
この制限を克服するために,DreamMixを提案する。DreamMixは,ユーザ指定領域に対象オブジェクトを挿入し,任意のテキスト駆動属性修正を同時に実現する。
DreamMixは3つの重要なコンポーネントを紹介している。
一 属性強化画像テキスト対を合成して過度適合を緩和する属性デカップリング機構(ADM)
二 直交分解により対象属性を分離するテクスチュアル属性置換(TAS)モジュール及び
(iii)グローバル・ハーモニゼーションからローカル・ジェネレーションを分離するDisentangled Inpainting Framework(DIF)。
複数のインペインティングバックボーンにわたる広範囲な実験により、DreamMixは、オブジェクト挿入、属性編集、小さなオブジェクトのインペインティングを含む様々なアプリケーション間で、アイデンティティ保存と属性編集のバランスが優れていることが示されている。
関連論文リスト
- BrushEdit: All-In-One Image Inpainting and Editing [79.55816192146762]
BrushEditは、インペイントベースの命令誘導画像編集パラダイムである。
本研究では,MLLMとデュアルブランチ画像の描画モデルを統合することで,自由形式の命令編集を可能にするシステムを提案する。
本フレームワークは,MLLMとインパインティングモデルを効果的に組み合わせ,7つの指標で優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-13T17:58:06Z) - SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - Improving Text-guided Object Inpainting with Semantic Pre-inpainting [95.17396565347936]
我々は,典型的な単一ステージオブジェクトを2つのカスケードプロセス – セマンティックプリペイントと高磁場オブジェクト生成 – に分解する。
これを実現するために,トランスフォーマーをベースとしたセマンティックインパインとオブジェクトインパインティング拡散モデルをカスケードし,新しいCAscaded Transformer-Diffusionフレームワークを実現する。
論文 参考訳(メタデータ) (2024-09-12T17:55:37Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - Collage Diffusion [17.660410448312717]
Collage Diffusionは入力層を調和させ、オブジェクトを一緒にフィットさせる。
我々は,各層ごとの特殊テキスト表現を学習することで,入力層の重要な視覚特性を保存する。
Collage Diffusionは、望まれるオブジェクト特性を以前のアプローチよりも良く維持する、グローバルに調和した画像を生成する。
論文 参考訳(メタデータ) (2023-03-01T06:35:42Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。