論文の概要: Object-aware Inversion and Reassembly for Image Editing
- arxiv url: http://arxiv.org/abs/2310.12149v1
- Date: Wed, 18 Oct 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:27:47.570946
- Title: Object-aware Inversion and Reassembly for Image Editing
- Title(参考訳): 画像編集のためのオブジェクト認識インバージョンと再組み立て
- Authors: Zhen Yang, Dinggang Gui, Wen Wang, Hao Chen, Bohan Zhuang, Chunhua
Shen
- Abstract要約: オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 64.8466081220814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By comparing the original and target prompts in editing task, we can obtain
numerous editing pairs, each comprising an object and its corresponding editing
target. To allow editability while maintaining fidelity to the input image,
existing editing methods typically involve a fixed number of inversion steps
that project the whole input image to its noisier latent representation,
followed by a denoising process guided by the target prompt. However, we find
that the optimal number of inversion steps for achieving ideal editing results
varies significantly among different editing pairs, owing to varying editing
difficulties. Therefore, the current literature, which relies on a fixed number
of inversion steps, produces sub-optimal generation quality, especially when
handling multiple editing pairs in a natural image. To this end, we propose a
new image editing paradigm, dubbed Object-aware Inversion and Reassembly (OIR),
to enable object-level fine-grained editing. Specifically, we design a new
search metric, which determines the optimal inversion steps for each editing
pair, by jointly considering the editability of the target and the fidelity of
the non-editing region. We use our search metric to find the optimal inversion
step for each editing pair when editing an image. We then edit these editing
pairs separately to avoid concept mismatch. Subsequently, we propose an
additional reassembly step to seamlessly integrate the respective editing
results and the non-editing region to obtain the final edited image. To
systematically evaluate the effectiveness of our method, we collect two
datasets for benchmarking single- and multi-object editing, respectively.
Experiments demonstrate that our method achieves superior performance in
editing object shapes, colors, materials, categories, etc., especially in
multi-object editing scenarios.
- Abstract(参考訳): 編集タスクにおけるオリジナルプロンプトとターゲットプロンプトを比較することで、オブジェクトとその対応する編集ターゲットを含む多数の編集ペアを得ることができる。
既存の編集方法は、入力画像に対する忠実性を保ちながら、編集性を確保するため、通常、入力画像全体をノイズの潜在表現に投影する固定数の反転ステップを伴い、続いてターゲットプロンプトによってガイドされる復調処理を行う。
しかし, 理想的な編集結果を得るための最適な反転ステップの数は, 編集困難度の違いにより, 異なる編集ペア間で大きく異なることがわかった。
そのため、現在の文献では、特に複数の編集ペアを自然画像で処理する場合に、一定数の反転ステップに依存するため、準最適生成品質が得られる。
そこで本稿では,オブジェクトレベルのきめ細かな編集を可能にするために,oir(object-aware inversion and reassembly)と呼ばれる新しい画像編集パラダイムを提案する。
具体的には,ターゲットの編集可能性と非編集領域の忠実性を同時に考慮し,編集ペア毎の最適な反転ステップを決定する新しい検索指標を設計する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
次に、これらの編集ペアを別々に編集し、概念ミスマッチを避ける。
その後、各編集結果と非編集領域をシームレスに統合し、最終的な編集画像を得るための追加の組立ステップを提案する。
提案手法の有効性を体系的に評価するために,単目的および多目的編集をベンチマークするための2つのデータセットを収集した。
実験により, オブジェクト形状, 色, 材料, カテゴリなどの編集において, 特にマルチオブジェクト編集において, 優れた性能が得られた。
関連論文リスト
- An Item is Worth a Prompt: Versatile Image Editing with Disentangled
Control [22.43821132940801]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。