論文の概要: PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor
- arxiv url: http://arxiv.org/abs/2303.17546v2
- Date: Wed, 11 Oct 2023 03:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:54:15.003118
- Title: PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor
- Title(参考訳): PAIR-Diffusion: 総合的マルチモーダルオブジェクトレベルイメージエディタ
- Authors: Vidit Goel, Elia Peruzzo, Yifan Jiang, Dejia Xu, Xingqian Xu, Nicu
Sebe, Trevor Darrell, Zhangyang Wang, Humphrey Shi
- Abstract要約: 画像中の各オブジェクトの構造と外観を拡散モデルで制御できる汎用フレームワークである textbfPAIR Diffusion を提案する。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
- 参考スコア(独自算出の注目度): 140.25632500960188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative image editing has recently witnessed extremely fast-paced growth.
Some works use high-level conditioning such as text, while others use low-level
conditioning. Nevertheless, most of them lack fine-grained control over the
properties of the different objects present in the image, i.e.\,object-level
image editing. In this work, we tackle the task by perceiving the images as an
amalgamation of various objects and aim to control the properties of each
object in a fine-grained manner. Out of these properties, we identify structure
and appearance as the most intuitive to understand and useful for editing
purposes. We propose \textbf{PAIR} Diffusion, a generic framework that can
enable a diffusion model to control the structure and appearance properties of
each object in the image. We show that having control over the properties of
each object in an image leads to comprehensive editing capabilities. Our
framework allows for various object-level editing operations on real images
such as reference image-based appearance editing, free-form shape editing,
adding objects, and variations. Thanks to our design, we do not require any
inversion step. Additionally, we propose multimodal classifier-free guidance
which enables editing images using both reference images and text when using
our approach with foundational diffusion models. We validate the above claims
by extensively evaluating our framework on both unconditional and foundational
diffusion models. Please refer to
https://vidit98.github.io/publication/conference-paper/pair_diff.html for code
and model release.
- Abstract(参考訳): 生成画像編集は、最近非常に速いペースで成長している。
テキストのようなハイレベルなコンディショニングを使う作品もあれば、低レベルコンディショニングを使う作品もある。
それにもかかわらず、それらのほとんどは、画像に存在する異なるオブジェクト、すなわち、オブジェクトレベルの画像編集の特性に関するきめ細かい制御を欠いている。
本研究では,様々なオブジェクトのアマルガメーションとしてイメージを知覚し,各オブジェクトの特性をきめ細かな方法で制御することを目的とする。
これらの特性から, 構造や外観を最も直感的に理解し, 編集に有用であると考える。
画像中の各オブジェクトの構造と外観特性を拡散モデルで制御できる汎用フレームワークである \textbf{PAIR} Diffusion を提案する。
画像中の各オブジェクトのプロパティを制御できることは、包括的な編集能力をもたらすことを示す。
本フレームワークは、参照画像に基づく外観編集、自由形式の形状編集、オブジェクトの追加、バリエーションなど、実画像上の様々なオブジェクトレベルの編集操作を可能にする。
私たちの設計のおかげで、反転のステップは不要です。
また,基本拡散モデルを用いたアプローチでは,参照画像とテキストの両方を用いて画像の編集が可能なマルチモーダル分類器フリーガイダンスを提案する。
非条件拡散モデルと基礎拡散モデルの両方に関する枠組みを広く評価することにより、上記の主張を検証する。
コードおよびモデルリリースについては、https://vidit98.github.io/publication/conference-paper/pair_diff.htmlを参照してください。
関連論文リスト
- LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - VASE: Object-Centric Appearance and Shape Manipulation of Real Videos [108.60416277357712]
本研究では,オブジェクトの外観と,特にオブジェクトの精密かつ明示的な構造的変更を実行するために設計された,オブジェクト中心のフレームワークを紹介する。
我々は,事前学習した画像条件拡散モデル上にフレームワークを構築し,時間次元を扱うためのレイヤを統合するとともに,形状制御を実現するためのトレーニング戦略とアーキテクチャ修正を提案する。
我々は,画像駆動映像編集タスクにおいて,最先端技術に類似した性能を示し,新しい形状編集機能を示す手法について検討した。
論文 参考訳(メタデータ) (2024-01-04T18:59:24Z) - MagicStick: Controllable Video Editing via Control Handle
Transformations [109.26314726025097]
MagicStickは、抽出した内部制御信号の変換を利用してビデオプロパティを編集する、制御可能なビデオ編集方法である。
統合フレームワークにおける多数の実例について実験を行った。
また、形状対応テキストベースの編集や手作り動画生成と比較し、従来の作品よりも優れた時間的一貫性と編集能力を示した。
論文 参考訳(メタデータ) (2023-12-05T17:58:06Z) - Localizing and Editing Knowledge in Text-to-Image Generative Models [62.02776252311559]
異なる属性に関する知識は、独立したコンポーネントにローカライズされず、代わりに条件付きUNetのコンポーネントセットに分散される。
テキスト・ツー・イメージ・モデルの概念を効果的に編集できる高速でデータフリーなモデル編集手法Diff-QuickFixを提案する。
論文 参考訳(メタデータ) (2023-10-20T17:31:12Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models [66.43179841884098]
本研究では,DiffusionモデルにおけるDragスタイルの操作を可能にする新しい画像編集手法DragonDiffusionを提案する。
提案手法は,オブジェクト移動,オブジェクトのリサイズ,オブジェクトの外観置換,コンテンツドラッグングなど,生成された画像や実際の画像に対する様々な編集モードを実現する。
論文 参考訳(メタデータ) (2023-07-05T16:43:56Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。