論文の概要: DiffUHaul: A Training-Free Method for Object Dragging in Images
- arxiv url: http://arxiv.org/abs/2406.01594v2
- Date: Sun, 8 Sep 2024 06:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:11:38.446927
- Title: DiffUHaul: A Training-Free Method for Object Dragging in Images
- Title(参考訳): DiffUHaul: 画像にオブジェクトをドラッグする訓練不要の方法
- Authors: Omri Avrahami, Rinon Gal, Gal Chechik, Ohad Fried, Dani Lischinski, Arash Vahdat, Weili Nie,
- Abstract要約: DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
- 参考スコア(独自算出の注目度): 78.93531472479202
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models have proven effective for solving many image editing tasks. However, the seemingly straightforward task of seamlessly relocating objects within a scene remains surprisingly challenging. Existing methods addressing this problem often struggle to function reliably in real-world scenarios due to lacking spatial reasoning. In this work, we propose a training-free method, dubbed DiffUHaul, that harnesses the spatial understanding of a localized text-to-image model, for the object dragging task. Blindly manipulating layout inputs of the localized model tends to cause low editing performance due to the intrinsic entanglement of object representation in the model. To this end, we first apply attention masking in each denoising step to make the generation more disentangled across different objects and adopt the self-attention sharing mechanism to preserve the high-level object appearance. Furthermore, we propose a new diffusion anchoring technique: in the early denoising steps, we interpolate the attention features between source and target images to smoothly fuse new layouts with the original appearance; in the later denoising steps, we pass the localized features from the source images to the interpolated images to retain fine-grained object details. To adapt DiffUHaul to real-image editing, we apply a DDPM self-attention bucketing that can better reconstruct real images with the localized model. Finally, we introduce an automated evaluation pipeline for this task and showcase the efficacy of our method. Our results are reinforced through a user preference study.
- Abstract(参考訳): テキストから画像への拡散モデルは多くの画像編集タスクを解くのに有効であることが証明されている。
しかし、シーン内のオブジェクトをシームレスに移動させるという一見単純な作業は、驚くほど難しいままだ。
この問題に対処する既存の手法は、空間的推論が欠如しているために、現実のシナリオで確実に機能するのに苦労することが多い。
本研究では,DiffUHaulと呼ばれるオブジェクトドラッグングタスクに対して,局所的なテキスト・画像モデルの空間的理解を活用する学習自由度手法を提案する。
局所モデルのレイアウト入力を盲目的に操作すると、モデル内のオブジェクト表現の内在的絡み合いにより、編集性能が低下する傾向にある。
この目的のために,まず注目マスキングを各デノナイズステップに適用し,各生成物を異なるオブジェクトに分散させ,高レベルのオブジェクトの外観を維持するために自己認識共有機構を採用する。
さらに,新しい拡散アンカリング手法を提案する。初期の段階では,ソース画像とターゲット画像の注意特徴を補間して,元の外観とスムーズに新しいレイアウトを融合させ,後段では,ソース画像から補間された画像に局所的特徴を渡すことで,細かなオブジェクトの詳細を保持する。
DiffUHaul を実画像編集に適用するために,DiffUHaul に DDPM 自己注意バケットを適用する。
最後に,本課題に対する自動評価パイプラインを導入し,本手法の有効性を示す。
私たちの結果は、ユーザの好み調査によって強化されています。
関連論文リスト
- Add-it: Training-Free Object Insertion in Images With Pretrained Diffusion Models [78.90023746996302]
Add-itは、拡散モデルの注意メカニズムを拡張して、3つの主要なソースからの情報を組み込む、トレーニング不要のアプローチである。
我々の重み付き拡張アテンション機構は、自然物の位置を確実にしながら、構造的一貫性と細部を維持できる。
人間の評価によると、Add-itは80%以上のケースで好まれる。
論文 参考訳(メタデータ) (2024-11-11T18:50:09Z) - InstructRL4Pix: Training Diffusion for Image Editing by Reinforcement Learning [31.799923647356458]
本稿では,対象物体の注意図で導かれる画像を生成するために拡散モデルを訓練するための強化学習ガイド画像編集法(InstructRL4Pix)を提案する。
実験結果から、InstructRL4Pixは従来のデータセットの限界を突破し、教師なし学習を用いて、編集目標を最適化し、自然な人間のコマンドに基づいて正確な画像編集を実現することがわかった。
論文 参考訳(メタデータ) (2024-06-14T12:31:48Z) - Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z) - Localizing Object-level Shape Variations with Text-to-Image Diffusion
Models [60.422435066544814]
本稿では,特定の物体の形状の変化を表現した画像の集合を生成する手法を提案する。
オブジェクトのバリエーションを生成する際の特に課題は、オブジェクトの形状に適用される操作を正確にローカライズすることである。
画像空間の操作をローカライズするために,自己注意層と交差注意層を併用する2つの手法を提案する。
論文 参考訳(メタデータ) (2023-03-20T17:45:08Z) - Blended Diffusion for Text-driven Editing of Natural Images [18.664733153082146]
本稿では,局所的な(地域をベースとした)編集を自然言語で行うための最初のソリューションを提案する。
我々は、事前訓練された言語画像モデル(CLIP)を活用し、組み合わせることで、目標を達成する。
画像の異なる部分で編集された領域をシームレスに融合させるため、入力画像のノイズバージョンと局所テキスト誘導拡散潜時を空間的にブレンドする。
論文 参考訳(メタデータ) (2021-11-29T18:58:49Z) - Instance Localization for Self-supervised Detection Pretraining [68.24102560821623]
インスタンスローカリゼーションと呼ばれる,新たな自己監視型プリテキストタスクを提案する。
境界ボックスを事前学習に組み込むことで、より優れたタスクアライメントとアーキテクチャアライメントが促進されることを示す。
実験結果から, オブジェクト検出のための最先端の転送学習結果が得られた。
論文 参考訳(メタデータ) (2021-02-16T17:58:57Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。