論文の概要: Object-aware Inversion and Reassembly for Image Editing
- arxiv url: http://arxiv.org/abs/2310.12149v1
- Date: Wed, 18 Oct 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 15:27:47.570946
- Title: Object-aware Inversion and Reassembly for Image Editing
- Title(参考訳): 画像編集のためのオブジェクト認識インバージョンと再組み立て
- Authors: Zhen Yang, Dinggang Gui, Wen Wang, Hao Chen, Bohan Zhuang, Chunhua
Shen
- Abstract要約: オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
- 参考スコア(独自算出の注目度): 64.8466081220814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: By comparing the original and target prompts in editing task, we can obtain
numerous editing pairs, each comprising an object and its corresponding editing
target. To allow editability while maintaining fidelity to the input image,
existing editing methods typically involve a fixed number of inversion steps
that project the whole input image to its noisier latent representation,
followed by a denoising process guided by the target prompt. However, we find
that the optimal number of inversion steps for achieving ideal editing results
varies significantly among different editing pairs, owing to varying editing
difficulties. Therefore, the current literature, which relies on a fixed number
of inversion steps, produces sub-optimal generation quality, especially when
handling multiple editing pairs in a natural image. To this end, we propose a
new image editing paradigm, dubbed Object-aware Inversion and Reassembly (OIR),
to enable object-level fine-grained editing. Specifically, we design a new
search metric, which determines the optimal inversion steps for each editing
pair, by jointly considering the editability of the target and the fidelity of
the non-editing region. We use our search metric to find the optimal inversion
step for each editing pair when editing an image. We then edit these editing
pairs separately to avoid concept mismatch. Subsequently, we propose an
additional reassembly step to seamlessly integrate the respective editing
results and the non-editing region to obtain the final edited image. To
systematically evaluate the effectiveness of our method, we collect two
datasets for benchmarking single- and multi-object editing, respectively.
Experiments demonstrate that our method achieves superior performance in
editing object shapes, colors, materials, categories, etc., especially in
multi-object editing scenarios.
- Abstract(参考訳): 編集タスクにおけるオリジナルプロンプトとターゲットプロンプトを比較することで、オブジェクトとその対応する編集ターゲットを含む多数の編集ペアを得ることができる。
既存の編集方法は、入力画像に対する忠実性を保ちながら、編集性を確保するため、通常、入力画像全体をノイズの潜在表現に投影する固定数の反転ステップを伴い、続いてターゲットプロンプトによってガイドされる復調処理を行う。
しかし, 理想的な編集結果を得るための最適な反転ステップの数は, 編集困難度の違いにより, 異なる編集ペア間で大きく異なることがわかった。
そのため、現在の文献では、特に複数の編集ペアを自然画像で処理する場合に、一定数の反転ステップに依存するため、準最適生成品質が得られる。
そこで本稿では,オブジェクトレベルのきめ細かな編集を可能にするために,oir(object-aware inversion and reassembly)と呼ばれる新しい画像編集パラダイムを提案する。
具体的には,ターゲットの編集可能性と非編集領域の忠実性を同時に考慮し,編集ペア毎の最適な反転ステップを決定する新しい検索指標を設計する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
次に、これらの編集ペアを別々に編集し、概念ミスマッチを避ける。
その後、各編集結果と非編集領域をシームレスに統合し、最終的な編集画像を得るための追加の組立ステップを提案する。
提案手法の有効性を体系的に評価するために,単目的および多目的編集をベンチマークするための2つのデータセットを収集した。
実験により, オブジェクト形状, 色, 材料, カテゴリなどの編集において, 特にマルチオブジェクト編集において, 優れた性能が得られた。
関連論文リスト
- AnyEdit: Mastering Unified High-Quality Image Editing for Any Idea [88.79769371584491]
我々は、総合的なマルチモーダル命令編集データセットであるAnyEditを提示する。
我々は,AnyEditコレクションの多様性と品質を,初期データ多様性,適応編集プロセス,自動編集結果の選択という3つの側面を通じて保証する。
3つのベンチマークデータセットの実験によると、AnyEditは拡散ベースの編集モデルのパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2024-11-24T07:02:56Z) - InstructBrush: Learning Attention-based Instruction Optimization for Image Editing [54.07526261513434]
InstructBrushは命令ベースの画像編集方法の逆変換手法である。
画像ペアから編集命令として編集効果を抽出し、さらに画像編集に適用する。
提案手法は,編集性能に優れ,目的の編集効果とセマンティックに一致している。
論文 参考訳(メタデータ) (2024-03-27T15:03:38Z) - An Item is Worth a Prompt: Versatile Image Editing with Disentangled Control [21.624984690721842]
D-Editは、包括的な画像-プロンプトインタラクションをいくつかのアイテム-プロンプトインタラクションに切り離すためのフレームワークである。
クロスアテンション層が歪んだ事前学習拡散モデルに基づいており、アイテム・プロンプト・アソシエーションを構築するために2段階の最適化を採用している。
画像ベース,テキストベース,マスクベースの編集,アイテム削除を含む4種類の編集作業において,最先端の結果を示す。
論文 参考訳(メタデータ) (2024-03-07T20:06:29Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。