論文の概要: Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing
- arxiv url: http://arxiv.org/abs/2412.11152v1
- Date: Sun, 15 Dec 2024 11:04:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:27.696782
- Title: Dual-Schedule Inversion: Training- and Tuning-Free Inversion for Real Image Editing
- Title(参考訳): デュアルスケジュールインバージョン:実画像編集のためのトレーニングとチューニング不要インバージョン
- Authors: Jiancheng Huang, Yi Huang, Jianzhuang Liu, Donghao Zhou, Yifan Liu, Shifeng Chen,
- Abstract要約: 拡散モデルに基づくほとんどのメソッドは、編集の第一段階としてDDIM Inversionを使用する。
そこで本研究では,Dual-Schedule Inversionと呼ばれる新しいインバージョンとサンプリング手法を提案する。
また、Dual-Schedule Inversionとユーザフレンドリーな画像編集のための異なる編集手法を適応的に組み合わせる分類器を設計する。
- 参考スコア(独自算出の注目度): 43.082008983889956
- License:
- Abstract: Text-conditional image editing is a practical AIGC task that has recently emerged with great commercial and academic value. For real image editing, most diffusion model-based methods use DDIM Inversion as the first stage before editing. However, DDIM Inversion often results in reconstruction failure, leading to unsatisfactory performance for downstream editing. To address this problem, we first analyze why the reconstruction via DDIM Inversion fails. We then propose a new inversion and sampling method named Dual-Schedule Inversion. We also design a classifier to adaptively combine Dual-Schedule Inversion with different editing methods for user-friendly image editing. Our work can achieve superior reconstruction and editing performance with the following advantages: 1) It can reconstruct real images perfectly without fine-tuning, and its reversibility is guaranteed mathematically. 2) The edited object/scene conforms to the semantics of the text prompt. 3) The unedited parts of the object/scene retain the original identity.
- Abstract(参考訳): テキスト条件画像編集は、最近、商業的、学術的に大きな価値を持って登場した実践的なAIGCタスクである。
実際の画像編集では、ほとんどの拡散モデルに基づく手法は、編集の第一段階としてDDIM Inversionを使用する。
しかし、DDIMのインバージョンは、しばしば再構築に失敗し、下流の編集に不満足なパフォーマンスをもたらす。
この問題に対処するために、DDIMの逆変換による再構成が失敗する理由をまず分析する。
次に、Dual-Schedule Inversionと呼ばれる新しいインバージョンとサンプリング手法を提案する。
また、Dual-Schedule Inversionとユーザフレンドリーな画像編集のための異なる編集手法を適応的に組み合わせる分類器を設計する。
私たちの仕事は、以下の利点で、より優れた再構築と編集性能を達成できます。
1) 微調整をせずに実画像を完全に再構築でき, 可逆性は数学的に保証される。
2) 編集対象/シーンはテキストプロンプトのセマンティクスに適合する。
3) オブジェクト/シーンの未編集部分は、元のIDを保持します。
関連論文リスト
- Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image
Action Editing [15.831539388569473]
良好な再構成性能と動作編集が可能なKVインバージョンを提案する。
本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。
論文 参考訳(メタデータ) (2023-09-28T17:07:30Z) - FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing [0.0]
本稿では,3つのサンプリング手法からなるFECを提案し,それぞれが異なる編集タイプと設定のために設計されている。
FECは、画像編集タスクにおいて、2つの重要な目標を達成している。
いずれのサンプリング手法も拡散モデルの微調整や大規模データセットの時間的訓練は不要である。
論文 参考訳(メタデータ) (2023-09-26T13:43:06Z) - Forgedit: Text Guided Image Editing via Learning and Forgetting [17.26772361532044]
我々は Forgedit という新しいテキスト誘導画像編集手法を設計する。
まず,30秒で元の画像を再構成できる視覚言語共同最適化フレームワークを提案する。
次に,拡散モデルのテキスト埋め込み空間におけるベクトル投影機構を提案する。
論文 参考訳(メタデータ) (2023-09-19T12:05:26Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - LEDITS: Real Image Editing with DDPM Inversion and Semantic Guidance [0.0]
LEDITSはリアルタイム編集のための軽量なアプローチであり、Edit Friendly DDPMインバージョン技術とSemantic Guidanceを統合している。
このアプローチは、微妙で広範囲な編集や構成やスタイルの変更といった多彩な編集を実現すると同時に、アーキテクチャの最適化や拡張も必要としない。
論文 参考訳(メタデータ) (2023-07-02T09:11:09Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [115.49488548588305]
画像の編集のために、事前訓練された拡散モデルの驚くべき能力を活用することに重点が置かれている。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。