論文の概要: REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models
- arxiv url: http://arxiv.org/abs/2504.18989v1
- Date: Sat, 26 Apr 2025 18:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.077529
- Title: REED-VAE: RE-Encode Decode Training for Iterative Image Editing with Diffusion Models
- Title(参考訳): REED-VAE:拡散モデルを用いた反復画像編集のための復号化訓練
- Authors: Gal Almog, Ariel Shamir, Ohad Fried,
- Abstract要約: 遅延拡散モデルでは印象的な画像編集結果が得られるが,同じ画像の反復的編集への応用は厳しく制限されている。
可変オートエンコーダ(VAE)のためのRE-Encode Decode(REED)トレーニングスキームを提案する。
本稿では、REED-VAEが画像の全体的な編集可能性を高め、良好な編集操作を行う可能性を高めることを示す。
- 参考スコア(独自算出の注目度): 21.889238871432553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While latent diffusion models achieve impressive image editing results, their application to iterative editing of the same image is severely restricted. When trying to apply consecutive edit operations using current models, they accumulate artifacts and noise due to repeated transitions between pixel and latent spaces. Some methods have attempted to address this limitation by performing the entire edit chain within the latent space, sacrificing flexibility by supporting only a limited, predetermined set of diffusion editing operations. We present a RE-encode decode (REED) training scheme for variational autoencoders (VAEs), which promotes image quality preservation even after many iterations. Our work enables multi-method iterative image editing: users can perform a variety of iterative edit operations, with each operation building on the output of the previous one using both diffusion-based operations and conventional editing techniques. We demonstrate the advantage of REED-VAE across a range of image editing scenarios, including text-based and mask-based editing frameworks. In addition, we show how REED-VAE enhances the overall editability of images, increasing the likelihood of successful and precise edit operations. We hope that this work will serve as a benchmark for the newly introduced task of multi-method image editing. Our code and models will be available at https://github.com/galmog/REED-VAE
- Abstract(参考訳): 遅延拡散モデルでは印象的な画像編集結果が得られるが、同じ画像の反復的編集への応用は厳しく制限されている。
現行のモデルを用いて連続的な編集操作を適用しようとすると、ピクセルと潜在空間の繰り返し遷移によるアーティファクトやノイズが蓄積される。
いくつかの方法は、潜在空間内で編集チェーン全体を実行することでこの制限に対処し、制限された所定の拡散編集操作のみをサポートすることで柔軟性を犠牲にしている。
可変オートエンコーダ(VAE)のためのRE-Encode Decode (REED) トレーニングスキームを提案する。
本研究は,複数メソッド反復画像編集を可能にする。ユーザは,拡散ベースの操作と従来の編集技術の両方を用いて,前の操作の出力に基づいて,様々な反復編集操作を行うことができる。
テキストベースやマスクベースの編集フレームワークを含む,さまざまな画像編集シナリオにおけるREED-VAEの利点を実証する。
また、REED-VAEは画像の全体的な編集性を高め、良好な編集操作を行う可能性を高めることを示す。
この作業が,マルチメソッド画像編集の新たなタスクのベンチマークとなることを願っている。
私たちのコードとモデルはhttps://github.com/galmog/REED-VAEで公開されます。
関連論文リスト
- Concept Lancet: Image Editing with Compositional Representation Transplant [58.9421919837084]
Concept Lancetは、画像編集における原則的表現操作のためのゼロショットプラグイン・アンド・プレイフレームワークである。
本稿では,抽出された視覚概念の表現の疎線型結合として,潜時(テキスト埋め込み,拡散スコア)空間におけるソース入力を分解する。
我々は、対応する編集方向を強制するために、カスタマイズされた概念移植プロセスを実行する。
論文 参考訳(メタデータ) (2025-04-03T17:59:58Z) - ReEdit: Multimodal Exemplar-Based Image Editing with Diffusion Models [11.830273909934688]
最新のテキスト・ツー・イメージ(T2I)拡散モデルでは、高品質な画像を生成することで画像編集に革命をもたらした。
テキストと画像のモダリティの両方で編集をキャプチャする,モジュール的で効率的なエンドツーエンドフレームワークであるReEditを提案する。
以上の結果から,ReEditは定性的かつ定量的に現代的アプローチを一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2024-11-06T15:19:24Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z) - DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image
Editing [66.43179841884098]
大規模テキスト・ツー・イメージ(T2I)拡散モデルは、ここ数年で画像生成に革命をもたらした。
既存の拡散型画像編集における2つの弱点を正すためにDiffEditorを提案する。
本手法は,様々な精細な画像編集タスクにおいて,最先端の性能を効率的に達成することができる。
論文 参考訳(メタデータ) (2024-02-04T18:50:29Z) - Emu Edit: Precise Image Editing via Recognition and Generation Tasks [62.95717180730946]
本稿では,マルチタスク画像編集モデルであるEmu Editについて述べる。
我々は、地域ベースの編集、自由形式の編集、コンピュータビジョンタスクなど、前例のない範囲でマルチタスクに訓練する。
Emu Editは画像インペイント、超解像、編集タスクの構成といった新しいタスクに、ラベル付き例で一般化できることを示す。
論文 参考訳(メタデータ) (2023-11-16T18:55:58Z) - InFusion: Inject and Attention Fusion for Multi Concept Zero-Shot
Text-based Video Editing [27.661609140918916]
InFusionはゼロショットテキストベースのビデオ編集のためのフレームワークである。
編集プロンプトで言及されているさまざまな概念に対する画素レベルの制御による複数の概念の編集をサポートする。
私たちのフレームワークは、トレーニングを必要としないため、編集のためのワンショットチューニングモデルの安価な代替品です。
論文 参考訳(メタデータ) (2023-07-22T17:05:47Z) - SpaceEdit: Learning a Unified Editing Space for Open-Domain Image
Editing [94.31103255204933]
オープンドメイン画像の色やトーン調整に着目したオープンドメイン画像編集のための統一モデルを提案する。
我々のモデルは、よりセマンティックで直感的で操作が容易な統合編集空間を学習する。
画像ペアを学習した編集空間の潜在コードに変換することで、下流編集タスクに我々のモデルを活用できることが示される。
論文 参考訳(メタデータ) (2021-11-30T23:53:32Z) - EditGAN: High-Precision Semantic Image Editing [120.49401527771067]
EditGANは高品質で高精度なセマンティック画像編集のための新しい手法である。
EditGANは前例のない細部と自由度で画像を操作可能であることを示す。
また、複数の編集を組み合わせることも簡単で、EditGANのトレーニングデータ以外の編集も可能になります。
論文 参考訳(メタデータ) (2021-11-04T22:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。