論文の概要: PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance
Paired Diffusion Models
- arxiv url: http://arxiv.org/abs/2303.17546v1
- Date: Thu, 30 Mar 2023 17:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:43:58.501938
- Title: PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance
Paired Diffusion Models
- Title(参考訳): PAIR-Diffusion:Paired Diffusionモデルを用いたオブジェクトレベル画像編集
- Authors: Vidit Goel, Elia Peruzzo, Yifan Jiang, Dejia Xu, Nicu Sebe, Trevor
Darrell, Zhangyang Wang, Humphrey Shi
- Abstract要約: 本稿では,画像編集のためのPAIR-Diffusionモデルを提案する。
提案モデルにより,オブジェクトレベルとグローバルレベルの両方の入力画像に参照画像の外観を注入することができる。
我々はLSUNデータセットとCelebA-HQ顔データセットについて広範囲に評価し、オブジェクトレベルでの構造と外観の両方をきめ細かな制御を実証する。
- 参考スコア(独自算出の注目度): 166.91115538178875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image editing using diffusion models has witnessed extremely fast-paced
growth recently. There are various ways in which previous works enable
controlling and editing images. Some works use high-level conditioning such as
text, while others use low-level conditioning. Nevertheless, most of them lack
fine-grained control over the properties of the different objects present in
the image, i.e. object-level image editing. In this work, we consider an image
as a composition of multiple objects, each defined by various properties. Out
of these properties, we identify structure and appearance as the most intuitive
to understand and useful for editing purposes. We propose
Structure-and-Appearance Paired Diffusion model (PAIR-Diffusion), which is
trained using structure and appearance information explicitly extracted from
the images. The proposed model enables users to inject a reference image's
appearance into the input image at both the object and global levels.
Additionally, PAIR-Diffusion allows editing the structure while maintaining the
style of individual components of the image unchanged. We extensively evaluate
our method on LSUN datasets and the CelebA-HQ face dataset, and we demonstrate
fine-grained control over both structure and appearance at the object level. We
also applied the method to Stable Diffusion to edit any real image at the
object level.
- Abstract(参考訳): 近年,拡散モデルを用いた画像編集が急速に成長している。
以前の作品が画像の制御と編集を可能にする方法はさまざまである。
テキストのようなハイレベルなコンディショニングを使う作品もあれば、低レベルコンディショニングを使う作品もある。
しかし、それらの多くは、画像に存在する異なるオブジェクトの性質、すなわちオブジェクトレベルの画像編集に対するきめ細かい制御を欠いている。
本研究では、画像を複数のオブジェクトの合成として捉え、それぞれを様々な特性で定義する。
これらの特性から, 構造や外観を最も直感的に理解し, 編集に有用であると考える。
画像から明示的に抽出された構造情報と外観情報を用いて学習したPAIR拡散モデルを提案する。
提案モデルでは,オブジェクトとグローバルレベルの両方において,入力画像に参照画像の出現を注入することができる。
さらに、PAIR-Diffusionは、画像の個々のコンポーネントのスタイルを変更せずに構造を編集できる。
lsun データセットとceleba-hq フェースデータセットの手法を広範囲に評価し,オブジェクトレベルでの構造と外観の両方についてきめ細かい制御を行った。
また,任意の実画像のオブジェクトレベルでの編集に安定拡散法を適用した。
関連論文リスト
- DreamMix: Decoupling Object Attributes for Enhanced Editability in Customized Image Inpainting [63.01425442236011]
本研究では,DreamMixを提案する。DreamMixは,ユーザが指定した場所のシーンに対象オブジェクトを挿入できる拡散型生成モデルである。
テキストベースの属性ガイダンスの多様性と識別能力を向上させるために,属性分離機構 (ADM) とテキスト属性置換 (TAS) モジュールを提案する。
論文 参考訳(メタデータ) (2024-11-26T08:44:47Z) - SGEdit: Bridging LLM with Text2Image Generative Model for Scene Graph-based Image Editing [42.23117201457898]
本稿では,大規模言語モデル(LLM)とText2生成モデルを統合し,グラフベースの画像編集を行う新しいフレームワークを提案する。
本フレームワークは,編集精度とシーン美学の観点から,既存の画像編集手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-15T17:40:48Z) - FunEditor: Achieving Complex Image Edits via Function Aggregation with Diffusion Models [15.509233098264513]
拡散モデルは生成タスクにおいて優れた性能を示しており、画像編集の理想的な候補となっている。
本稿では,原子編集関数を学習し,より単純な関数を集約して複雑な編集を行うための,効率的な拡散モデルFunEditorを紹介する。
推論の4ステップだけで、FunEditorは既存の一般的なメソッドよりも5~24倍の推論スピードアップを達成する。
論文 参考訳(メタデータ) (2024-08-16T02:33:55Z) - A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models [117.77807994397784]
画像編集は、ユーザーが特定の要求を満たすために、与えられた合成画像または実際の画像を編集することを目的としている。
この分野での最近の顕著な進歩は、テキスト・ツー・イメージ(T2I)拡散モデルの開発に基づいている。
T2Iベースの画像編集手法は、編集性能を大幅に向上させ、マルチモーダル入力でガイドされたコンテンツを修正するためのユーザフレンドリーなインタフェースを提供する。
論文 参考訳(メタデータ) (2024-06-20T17:58:52Z) - Editable Image Elements for Controllable Synthesis [79.58148778509769]
拡散モデルを用いて入力画像の空間的編集を促進する画像表現を提案する。
オブジェクトのリサイズ,再配置,ドラッグング,デオクルージョン,除去,変動,画像合成など,画像編集作業における表現の有効性を示す。
論文 参考訳(メタデータ) (2024-04-24T17:59:11Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。