論文の概要: FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing
- arxiv url: http://arxiv.org/abs/2309.14934v1
- Date: Tue, 26 Sep 2023 13:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:32:55.372228
- Title: FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing
- Title(参考訳): FEC:画像編集の一貫性を高める3つのファインタニングフリー手法
- Authors: Songyan Chen, Jiancheng Huang
- Abstract要約: 本稿では,3つのサンプリング手法からなるFECを提案し,それぞれが異なる編集タイプと設定のために設計されている。
FECは、画像編集タスクにおいて、2つの重要な目標を達成している。
いずれのサンプリング手法も拡散モデルの微調整や大規模データセットの時間的訓練は不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditional image editing is a very useful task that has recently
emerged with immeasurable potential. Most current real image editing methods
first need to complete the reconstruction of the image, and then editing is
carried out by various methods based on the reconstruction. Most methods use
DDIM Inversion for reconstruction, however, DDIM Inversion often fails to
guarantee reconstruction performance, i.e., it fails to produce results that
preserve the original image content. To address the problem of reconstruction
failure, we propose FEC, which consists of three sampling methods, each
designed for different editing types and settings. Our three methods of FEC
achieve two important goals in image editing task: 1) ensuring successful
reconstruction, i.e., sampling to get a generated result that preserves the
texture and features of the original real image. 2) these sampling methods can
be paired with many editing methods and greatly improve the performance of
these editing methods to accomplish various editing tasks. In addition, none of
our sampling methods require fine-tuning of the diffusion model or
time-consuming training on large-scale datasets. Hence the cost of time as well
as the use of computer memory and computation can be significantly reduced.
- Abstract(参考訳): テキスト条件画像編集は、最近目立たない可能性を秘めている非常に有用なタスクである。
実際の画像編集手法の多くは、まず画像の再構成を完了し、その後、再構成に基づいて様々な方法で編集を行う。
ほとんどの手法では再構成に DDIM Inversion を用いるが、DDIM Inversion は再構成性能の保証に失敗することが多い。
再構成の失敗に対処するために,異なる編集タイプと設定のために設計された3つのサンプリング手法からなるFECを提案する。
FECの3つの手法は、画像編集タスクにおいて2つの重要な目標を達成する。
1) 実画像のテクスチャと特徴を保存した生成結果を得るためのサンプリングなど,再現性を確保すること。
2)これらのサンプリング手法は,多くの編集手法と組み合わせることができ,編集手法の性能を大幅に向上させ,様々な編集作業を行うことができる。
さらに,我々のサンプリング手法では,拡散モデルの微調整や大規模データセットの時間的トレーニングは不要である。
したがって、コンピュータメモリと計算の使用だけでなく、時間のコストも大幅に削減できる。
関連論文リスト
- Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
コード、モデル、インターフェースは、将来の研究を促進するために公開されます。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - BARET : Balanced Attention based Real image Editing driven by
Target-text Inversion [36.59406959595952]
本研究では, 微調整拡散モデルを用いずに, 非剛性編集を含む様々な編集タイプに対して, 入力画像とターゲットテキストのみを必要とする新しい編集手法を提案する。
I)ターゲットテキストインバージョン・スケジュール(TTIS)は、画像キャプションや収束の加速なしに高速な画像再構成を実現するために、入力対象のテキスト埋め込みを微調整するように設計されている; (II)プログレッシブ・トランジション・スキームは、ターゲットのテキスト埋め込みとその微調整バージョンの間の進行線形アプローチを適用し、非剛性編集能力を維持するための遷移埋め込みを生成する; (III) バランスド・アテンション・モジュール(BAM)は、テキスト記述と画像意味論のトレードオフをバランスさせる。
論文 参考訳(メタデータ) (2023-12-09T07:18:23Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image
Action Editing [15.831539388569473]
良好な再構成性能と動作編集が可能なKVインバージョンを提案する。
本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。
論文 参考訳(メタデータ) (2023-09-28T17:07:30Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - StyleDiffusion: Prompt-Embedding Inversion for Text-Based Editing [86.92711729969488]
我々は、画像の編集に事前訓練された拡散モデルの驚くべき能力を利用する。
彼らはモデルを微調整するか、事前訓練されたモデルの潜在空間で画像を反転させる。
選択された地域に対する不満足な結果と、非選択された地域における予期せぬ変化の2つの問題に悩まされている。
論文 参考訳(メタデータ) (2023-03-28T00:16:45Z) - In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing [28.790900756506833]
3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。
GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。
我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。