論文の概要: FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing
- arxiv url: http://arxiv.org/abs/2403.18605v2
- Date: Thu, 28 Mar 2024 03:56:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 10:49:40.360944
- Title: FlexEdit: Flexible and Controllable Diffusion-based Object-centric Image Editing
- Title(参考訳): FlexEdit: フレキシブルで制御可能な拡散ベースのオブジェクト中心の画像編集
- Authors: Trong-Tung Nguyen, Duc-Anh Nguyen, Anh Tran, Cuong Pham,
- Abstract要約: オブジェクトのフレキシブルでコントロール可能な編集フレームワークであるFlexEditを紹介します。
FlexEditブロックを使用して、各denoisingステップでレイトを反復的に調整します。
当社のフレームワークでは,デノナイズ時に自動的に抽出されるアダプティブマスクを用いて,背景の保護を行う。
- 参考スコア(独自算出の注目度): 3.852667054327356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our work addresses limitations seen in previous approaches for object-centric editing problems, such as unrealistic results due to shape discrepancies and limited control in object replacement or insertion. To this end, we introduce FlexEdit, a flexible and controllable editing framework for objects where we iteratively adjust latents at each denoising step using our FlexEdit block. Initially, we optimize latents at test time to align with specified object constraints. Then, our framework employs an adaptive mask, automatically extracted during denoising, to protect the background while seamlessly blending new content into the target image. We demonstrate the versatility of FlexEdit in various object editing tasks and curate an evaluation test suite with samples from both real and synthetic images, along with novel evaluation metrics designed for object-centric editing. We conduct extensive experiments on different editing scenarios, demonstrating the superiority of our editing framework over recent advanced text-guided image editing methods. Our project page is published at https://flex-edit.github.io/.
- Abstract(参考訳): 我々の研究は、形状の相違による非現実的な結果や、オブジェクトの置換や挿入の制限など、オブジェクト中心の編集問題に対する従来のアプローチに見られる制限に対処する。
この目的のために、FlexEditというフレキシブルで制御可能なオブジェクトの編集フレームワークを導入し、FlexEditブロックを使って各デノナイズステップでレイトを反復的に調整します。
最初は、特定のオブジェクトの制約に合わせるために、テスト時に遅延を最適化します。
そこで,本フレームワークでは,対象画像に新たなコンテンツをシームレスにブレンドしながら,背景を保護するために適応マスクを自動抽出する。
オブジェクト編集タスクにおけるFlexEditの汎用性を実証し、実画像と合成画像の両方からのサンプルと、オブジェクト中心の編集用に設計された新しい評価指標を用いて評価テストスイートをキュレートする。
我々は様々な編集シナリオについて広範な実験を行い、最近の先進的なテキスト誘導画像編集手法よりも編集フレームワークの優位性を実証した。
私たちのプロジェクトページはhttps://flex-edit.github.io/で公開されています。
関連論文リスト
- Move and Act: Enhanced Object Manipulation and Background Integrity for Image Editing [63.32399428320422]
インバージョンと編集という2つの分岐しか持たないチューニング不要な手法を提案する。
このアプローチにより、ユーザはオブジェクトのアクションを同時に編集し、編集されたオブジェクトの生成位置を制御することができる。
印象的な画像編集結果と定量的評価により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-25T08:00:49Z) - LoMOE: Localized Multi-Object Editing via Multi-Diffusion [8.90467024388923]
本稿では,ゼロショットローカライズされたマルチオブジェクト編集のための新しいフレームワークを提案する。
提案手法は, 前景マスクとそれに対応する簡単なテキストプロンプトを利用して, 対象領域に局所的な影響を与える。
ラテント空間内のクロスアテンションとバックグラウンドロスの組み合わせにより、編集対象の特性が保存される。
論文 参考訳(メタデータ) (2024-03-01T10:46:47Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Edit One for All: Interactive Batch Image Editing [44.50631647670942]
本稿では,StyleGANを媒体として,インタラクティブなバッチ画像編集手法を提案する。
サンプル画像中のユーザが指定した編集(例えば、顔の前面に表示させる)が与えられた場合、我々の方法は自動的に他のテスト画像に編集を転送することができる。
実験により,本手法を用いた編集は,既存の単一画像編集法と類似した視覚的品質を有することが示された。
論文 参考訳(メタデータ) (2024-01-18T18:58:44Z) - Optimisation-Based Multi-Modal Semantic Image Editing [58.496064583110694]
本稿では,複数の編集命令型に対応するために,推論時編集の最適化を提案する。
各損失関数の影響を調整することで、ユーザの好みに合わせてフレキシブルな編集ソリューションを構築することができる。
本手法は,テキスト,ポーズ,スクリブルといった編集条件を用いて評価し,複雑な編集を行う能力を強調した。
論文 参考訳(メタデータ) (2023-11-28T15:31:11Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - LayerDiffusion: Layered Controlled Image Editing with Diffusion Models [5.58892860792971]
LayerDiffusionはセマンティックベースの階層制御画像編集手法である。
我々は、大規模テキスト・画像モデルを活用し、階層化された制御最適化戦略を採用する。
実験により,高コヒーレント画像の生成における本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-30T01:26:41Z) - PAIR-Diffusion: A Comprehensive Multimodal Object-Level Image Editor [135.17302411419834]
PAIR Diffusionは、画像内の各オブジェクトの構造と外観を制御する拡散モデルを可能にする汎用フレームワークである。
画像中の各オブジェクトのプロパティを制御できることが、包括的な編集機能に繋がることを示す。
我々のフレームワークは、参照画像ベースの外観編集、自由形形状編集、オブジェクトの追加、バリエーションなど、実際の画像に対する様々なオブジェクトレベルの編集操作を可能にする。
論文 参考訳(メタデータ) (2023-03-30T17:13:56Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。