論文の概要: LoMOE: Localized Multi-Object Editing via Multi-Diffusion
- arxiv url: http://arxiv.org/abs/2403.00437v1
- Date: Fri, 1 Mar 2024 10:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:37:27.060468
- Title: LoMOE: Localized Multi-Object Editing via Multi-Diffusion
- Title(参考訳): LoMOE: マルチ拡散による局所的マルチオブジェクト編集
- Authors: Goirik Chakrabarty, Aditya Chandrasekar, Ramya Hebbalaguppe, Prathosh
AP
- Abstract要約: 本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
- 参考スコア(独自算出の注目度): 8.90467024388923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent developments in the field of diffusion models have demonstrated an
exceptional capacity to generate high-quality prompt-conditioned image edits.
Nevertheless, previous approaches have primarily relied on textual prompts for
image editing, which tend to be less effective when making precise edits to
specific objects or fine-grained regions within a scene containing
single/multiple objects. We introduce a novel framework for zero-shot localized
multi-object editing through a multi-diffusion process to overcome this
challenge. This framework empowers users to perform various operations on
objects within an image, such as adding, replacing, or editing $\textbf{many}$
objects in a complex scene $\textbf{in one pass}$. Our approach leverages
foreground masks and corresponding simple text prompts that exert localized
influences on the target regions resulting in high-fidelity image editing. A
combination of cross-attention and background preservation losses within the
latent space ensures that the characteristics of the object being edited are
preserved while simultaneously achieving a high-quality, seamless
reconstruction of the background with fewer artifacts compared to the current
methods. We also curate and release a dataset dedicated to multi-object
editing, named $\texttt{LoMOE}$-Bench. Our experiments against existing
state-of-the-art methods demonstrate the improved effectiveness of our approach
in terms of both image editing quality and inference speed.
- Abstract(参考訳): 近年の拡散モデルの発展は、高品質のプロンプトコンディショニング画像編集を生成できることを実証している。
それにもかかわらず、以前のアプローチは、主に画像編集のテキストプロンプトに依存しており、単一の/複数のオブジェクトを含むシーン内の特定のオブジェクトやきめ細かい領域に対して正確な編集を行う場合、効果が低い傾向にある。
この課題を克服するために,マルチディフフュージョンプロセスによるゼロショットローカライズマルチオブジェクト編集のための新しいフレームワークを提案する。
このフレームワークは、複雑なシーンの$\textbf{in one pass}$のような$\textbf{many}$オブジェクトの追加、置換、編集など、画像内のオブジェクトの様々な操作をユーザが実行できるようにする。
提案手法では,前景マスクとそれに対応する簡易テキストプロンプトを利用し,対象領域に局所的な影響を及ぼし,高忠実度画像編集を実現する。
潜在空間におけるクロス・アテンションと背景保存損失の組み合わせにより、編集対象の特性が保存されると同時に、現在の方法に比べて少ないアーティファクトで高品質でシームレスな背景復元を実現する。
また、マルチオブジェクト編集専用のデータセットである$\texttt{LoMOE}$-Benchをキュレートしてリリースします。
既存の最先端手法に対する実験は,画像編集品質と推論速度の両面で,提案手法の有効性が向上したことを示す。
関連論文リスト
- Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing [63.32399428320422]
インバージョンと編集という2つの分岐しか持たないチューニング不要な手法を提案する。
このアプローチにより、ユーザはオブジェクトのアクションを同時に編集し、編集されたオブジェクトの生成位置を制御することができる。
印象的な画像編集結果と定量的評価により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-25T08:00:49Z) - Zero-shot Image Editing with Reference Imitation [50.75310094611476]
我々は、ユーザーがより便利に創造性を発揮できるように、模倣編集と呼ばれる新しい形態の編集を提示する。
ビデオクリップから2つのフレームをランダムに選択し、あるフレームのいくつかの領域をマスクし、他のフレームからの情報を用いてマスクされた領域を復元する、MimicBrushと呼ばれる生成学習フレームワークを提案する。
各種試験事例における本手法の有効性を実験的に示すとともに,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-06-11T17:59:51Z) - ParallelEdits: Efficient Multi-Aspect Text-Driven Image Editing with Attention Grouping [31.026083872774834]
ParallelEditsは、複数の属性をまたいだ同時編集をシームレスに管理するメソッドである。
PIE-Bench++データセットは、多面的シナリオにおけるテキスト駆動の画像編集方法を評価するためのベンチマークである。
論文 参考訳(メタデータ) (2024-06-03T04:43:56Z) - DesignEdit: Multi-Layered Latent Decomposition and Fusion for Unified & Accurate Image Editing [22.855660721387167]
本研究では,空間認識画像編集タスクを2つのサブタスク,多層ラテント分解と多層ラテント融合の組合せに変換する。
提案手法は,自己ガイドやDiffEditorなど,最新の空間編集手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:35:42Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。