論文の概要: FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing
- arxiv url: http://arxiv.org/abs/2309.14934v1
- Date: Tue, 26 Sep 2023 13:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:32:55.372228
- Title: FEC: Three Finetuning-free Methods to Enhance Consistency for Real Image
Editing
- Title(参考訳): FEC:画像編集の一貫性を高める3つのファインタニングフリー手法
- Authors: Songyan Chen, Jiancheng Huang
- Abstract要約: 本稿では,3つのサンプリング手法からなるFECを提案し,それぞれが異なる編集タイプと設定のために設計されている。
FECは、画像編集タスクにおいて、2つの重要な目標を達成している。
いずれのサンプリング手法も拡散モデルの微調整や大規模データセットの時間的訓練は不要である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-conditional image editing is a very useful task that has recently
emerged with immeasurable potential. Most current real image editing methods
first need to complete the reconstruction of the image, and then editing is
carried out by various methods based on the reconstruction. Most methods use
DDIM Inversion for reconstruction, however, DDIM Inversion often fails to
guarantee reconstruction performance, i.e., it fails to produce results that
preserve the original image content. To address the problem of reconstruction
failure, we propose FEC, which consists of three sampling methods, each
designed for different editing types and settings. Our three methods of FEC
achieve two important goals in image editing task: 1) ensuring successful
reconstruction, i.e., sampling to get a generated result that preserves the
texture and features of the original real image. 2) these sampling methods can
be paired with many editing methods and greatly improve the performance of
these editing methods to accomplish various editing tasks. In addition, none of
our sampling methods require fine-tuning of the diffusion model or
time-consuming training on large-scale datasets. Hence the cost of time as well
as the use of computer memory and computation can be significantly reduced.
- Abstract(参考訳): テキスト条件画像編集は、最近目立たない可能性を秘めている非常に有用なタスクである。
実際の画像編集手法の多くは、まず画像の再構成を完了し、その後、再構成に基づいて様々な方法で編集を行う。
ほとんどの手法では再構成に DDIM Inversion を用いるが、DDIM Inversion は再構成性能の保証に失敗することが多い。
再構成の失敗に対処するために,異なる編集タイプと設定のために設計された3つのサンプリング手法からなるFECを提案する。
FECの3つの手法は、画像編集タスクにおいて2つの重要な目標を達成する。
1) 実画像のテクスチャと特徴を保存した生成結果を得るためのサンプリングなど,再現性を確保すること。
2)これらのサンプリング手法は,多くの編集手法と組み合わせることができ,編集手法の性能を大幅に向上させ,様々な編集作業を行うことができる。
さらに,我々のサンプリング手法では,拡散モデルの微調整や大規模データセットの時間的トレーニングは不要である。
したがって、コンピュータメモリと計算の使用だけでなく、時間のコストも大幅に削減できる。
関連論文リスト
- OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision [32.33777277141083]
我々は,7種類の画像編集タスクをシームレスに処理できる全能なエディタであるomnieditを提案する。
omnieditは7つの異なるスペシャリストモデルの監督を利用して、タスクカバレッジを確保することで訓練される。
当社のモデルが野生のどんな画像でも扱えるように、アスペクト比の異なる画像を提供しています。
論文 参考訳(メタデータ) (2024-11-11T18:21:43Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - Preserving Identity with Variational Score for General-purpose 3D Editing [48.314327790451856]
Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
論文 参考訳(メタデータ) (2024-06-13T09:32:40Z) - Unified Editing of Panorama, 3D Scenes, and Videos Through Disentangled Self-Attention Injection [60.47731445033151]
本稿では,基本的な2次元画像テキスト・ツー・イメージ(T2I)拡散モデルのみを利用して,両手法の長所を結合した新しい統合編集フレームワークを提案する。
実験結果から,3次元シーン,ビデオ,パノラマ画像など,様々なモダリティの編集が可能であることが確認された。
論文 参考訳(メタデータ) (2024-05-27T04:44:36Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Tuning-Free Inversion-Enhanced Control for Consistent Image Editing [44.311286151669464]
我々は、チューニング不要なインバージョン強化制御(TIC)と呼ばれる新しいアプローチを提案する。
TICは、インバージョンプロセスとサンプリングプロセスの特徴を相関付け、DDIM再構成の不整合を軽減する。
また、インバージョンと単純なDDIM編集プロセスの両方の内容を組み合わせたマスク誘導型アテンション結合戦略を提案する。
論文 参考訳(メタデータ) (2023-12-22T11:13:22Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - KV Inversion: KV Embeddings Learning for Text-Conditioned Real Image
Action Editing [15.831539388569473]
良好な再構成性能と動作編集が可能なKVインバージョンを提案する。
本手法では,安定拡散モデル自体のトレーニングを必要とせず,大規模なデータセットをスキャンして時間を要するトレーニングを行う必要もない。
論文 参考訳(メタデータ) (2023-09-28T17:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。