論文の概要: PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor
- arxiv url: http://arxiv.org/abs/2303.17546v2
- Date: Wed, 11 Oct 2023 03:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:54:15.003118
- Title: PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor
- Title(参考訳): PAIR-Diffusion: 総合的マルチモーダルオブジェクトレベルイメージエディタ
- Authors: Vidit Goel, Elia Peruzzo, Yifan Jiang, Dejia Xu, Xingqian Xu, Nicu
Sebe, Trevor Darrell, Zhangyang Wang, Humphrey Shi
- Abstract要約: 画像中の各オブジェクトの構造と外観を拡散モデルで制御できる汎用フレームワークである textbfPAIR Diffusion を提案する。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
- 参考スコア(独自算出の注目度): 140.25632500960188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative image editing has recently witnessed extremely fast-paced growth.
Some works use high-level conditioning such as text, while others use low-level
conditioning. Nevertheless, most of them lack fine-grained control over the
properties of the different objects present in the image, i.e.\,object-level
image editing. In this work, we tackle the task by perceiving the images as an
amalgamation of various objects and aim to control the properties of each
object in a fine-grained manner. Out of these properties, we identify structure
and appearance as the most intuitive to understand and useful for editing
purposes. We propose \textbf{PAIR} Diffusion, a generic framework that can
enable a diffusion model to control the structure and appearance properties of
each object in the image. We show that having control over the properties of
each object in an image leads to comprehensive editing capabilities. Our
framework allows for various object-level editing operations on real images
such as reference image-based appearance editing, free-form shape editing,
adding objects, and variations. Thanks to our design, we do not require any
inversion step. Additionally, we propose multimodal classifier-free guidance
which enables editing images using both reference images and text when using
our approach with foundational diffusion models. We validate the above claims
by extensively evaluating our framework on both unconditional and foundational
diffusion models. Please refer to
https://vidit98.github.io/publication/conference-paper/pair_diff.html for code
and model release.
- Abstract(参考訳): 生成画像編集は、最近非常に速いペースで成長している。
テキストのようなハイレベルなコンディショニングを使う作品もあれば、低レベルコンディショニングを使う作品もある。
それにもかかわらず、それらのほとんどは、画像に存在する異なるオブジェクト、すなわち、オブジェクトレベルの画像編集の特性に関するきめ細かい制御を欠いている。
本研究では,様々なオブジェクトのアマルガメーションとしてイメージを知覚し,各オブジェクトの特性をきめ細かな方法で制御することを目的とする。
これらの特性から, 構造や外観を最も直感的に理解し, 編集に有用であると考える。
画像中の各オブジェクトの構造と外観特性を拡散モデルで制御できる汎用フレームワークである \textbf{PAIR} Diffusion を提案する。
画像中の各オブジェクトのプロパティを制御できることは、包括的な編集能力をもたらすことを示す。
本フレームワークは、参照画像に基づく外観編集、自由形式の形状編集、オブジェクトの追加、バリエーションなど、実画像上の様々なオブジェクトレベルの編集操作を可能にする。
私たちの設計のおかげで、反転のステップは不要です。
また,基本拡散モデルを用いたアプローチでは,参照画像とテキストの両方を用いて画像の編集が可能なマルチモーダル分類器フリーガイダンスを提案する。
非条件拡散モデルと基礎拡散モデルの両方に関する枠組みを広く評価することにより、上記の主張を検証する。
コードおよびモデルリリースについては、https://vidit98.github.io/publication/conference-paper/pair_diff.htmlを参照してください。
関連論文リスト
- DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは、生成タスクにおいて強力な性能を示しており、画像編集の理想的な候補となっている。
本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。
FunEditorは、オブジェクトムーブメントのような複雑なタスクの既存のメソッドよりも5倍から24倍高速な推論を行う。
論文 参考訳(メタデータ) (2024-08-16T02:33:55Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。