論文の概要: Object-aware Inversion and Reassembly for Image Editing
- arxiv url: http://arxiv.org/abs/2310.12149v2
- Date: Mon, 18 Mar 2024 08:36:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:22:50.623605
- Title: Object-aware Inversion and Reassembly for Image Editing
- Title(参考訳): 画像編集のためのオブジェクト認識インバージョンと再組み立て
- Authors: Zhen Yang, Ganggui Ding, Wen Wang, Hao Chen, Bohan Zhuang, Chunhua Shen,
- Abstract要約: オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 61.19822563737121
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By comparing the original and target prompts, we can obtain numerous editing pairs, each comprising an object and its corresponding editing target. To allow editability while maintaining fidelity to the input image, existing editing methods typically involve a fixed number of inversion steps that project the whole input image to its noisier latent representation, followed by a denoising process guided by the target prompt. However, we find that the optimal number of inversion steps for achieving ideal editing results varies significantly among different editing pairs, owing to varying editing difficulties. Therefore, the current literature, which relies on a fixed number of inversion steps, produces sub-optimal generation quality, especially when handling multiple editing pairs in a natural image. To this end, we propose a new image editing paradigm, dubbed Object-aware Inversion and Reassembly (OIR), to enable object-level fine-grained editing. Specifically, we design a new search metric, which determines the optimal inversion steps for each editing pair, by jointly considering the editability of the target and the fidelity of the non-editing region. We use our search metric to find the optimal inversion step for each editing pair when editing an image. We then edit these editing pairs separately to avoid concept mismatch. Subsequently, we propose an additional reassembly step to seamlessly integrate the respective editing results and the non-editing region to obtain the final edited image. To systematically evaluate the effectiveness of our method, we collect two datasets called OIRBench for benchmarking single- and multi-object editing, respectively. Experiments demonstrate that our method achieves superior performance in editing object shapes, colors, materials, categories, etc., especially in multi-object editing scenarios.
- Abstract(参考訳): 元のプロンプトとターゲットのプロンプトを比較することで、対象と対応する編集対象からなる多数の編集ペアを得ることができる。
既存の編集方法は、入力画像に対する忠実性を保ちながら、編集性を確保するため、通常、入力画像全体をノイズの潜在表現に投影する固定数の反転ステップを伴い、続いてターゲットプロンプトによってガイドされる復調処理を行う。
しかし,編集難易度が異なるため,最適な編集結果を得るための倒立ステップの数が異なることが判明した。
そのため、現在の文献では、特に複数の編集ペアを自然画像で処理する場合に、一定数の反転ステップに依存するため、準最適生成品質が得られる。
そこで本研究では,オブジェクトレベルの微粒化編集を実現するために,オブジェクト認識型インバージョン・リアセンブラ(OIR)と呼ばれる新たな画像編集パラダイムを提案する。
具体的には、ターゲットの編集可能性と非編集領域の忠実度を共同で考慮し、各編集ペアの最適反転ステップを決定する新しい検索指標を設計する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
次に、これらの編集ペアを別々に編集し、概念ミスマッチを避ける。
その後、各編集結果と非編集領域をシームレスに統合し、最終的な編集画像を得るための追加の組立ステップを提案する。
提案手法の有効性を体系的に評価するために,OIRBenchと呼ばれる2つのデータセットを収集した。
実験により, 対象の形状, 色, 材料, カテゴリ等の編集において, 特に多目的の編集シナリオにおいて, 優れた性能が得られることが示された。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。