論文の概要: Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models
- arxiv url: http://arxiv.org/abs/2506.19103v1
- Date: Mon, 23 Jun 2025 20:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.375627
- Title: Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models
- Title(参考訳): 逆編集:サイクル一貫性モデルによる有効かつ高速な画像編集
- Authors: Ilia Beletskii, Andrey Kuznetsov, Aibek Alanov,
- Abstract要約: 本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 1.9389881806157316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in image editing with diffusion models have achieved impressive results, offering fine-grained control over the generation process. However, these methods are computationally intensive because of their iterative nature. While distilled diffusion models enable faster inference, their editing capabilities remain limited, primarily because of poor inversion quality. High-fidelity inversion and reconstruction are essential for precise image editing, as they preserve the structural and semantic integrity of the source image. In this work, we propose a novel framework that enhances image inversion using consistency models, enabling high-quality editing in just four steps. Our method introduces a cycle-consistency optimization strategy that significantly improves reconstruction accuracy and enables a controllable trade-off between editability and content preservation. We achieve state-of-the-art performance across various image editing tasks and datasets, demonstrating that our method matches or surpasses full-step diffusion models while being substantially more efficient. The code of our method is available on GitHub at https://github.com/ControlGenAI/Inverse-and-Edit.
- Abstract(参考訳): 拡散モデルによる画像編集の最近の進歩は、生成プロセスのきめ細かい制御を提供することで、印象的な成果を上げている。
しかし、これらの手法は反復的な性質のため計算集約的である。
蒸留拡散モデルはより高速な推論を可能にするが、主に逆転品質の悪いため、編集能力は制限されたままである。
高忠実度インバージョンと再構成は、ソース画像の構造的・意味的整合性を維持するため、正確な画像編集に不可欠である。
本研究では,一貫性モデルを用いて画像のインバージョンを向上し,高品質な編集をわずか4ステップで実現する新しいフレームワークを提案する。
本手法では,再現精度を大幅に向上し,編集性とコンテンツ保存のトレードオフを制御可能なサイクル一貫性最適化手法を提案する。
我々は、様々な画像編集タスクやデータセットに対して最先端のパフォーマンスを達成し、我々の手法がより効率的でありながら、フルステップ拡散モデルに適合するか、超越しているかを実証した。
メソッドのコードはGitHubでhttps://github.com/ControlGenAI/Inverse-and-Editで公開されている。
関連論文リスト
- AttentionDrag: Exploiting Latent Correlation Knowledge in Pre-trained Diffusion Models for Image Editing [33.74477787349966]
本研究では,AttentionDragという一段階のポイントベース画像編集手法を提案する。
このフレームワークは、大規模な再最適化や再トレーニングを必要とせずに、セマンティック一貫性と高品質な操作を可能にする。
以上の結果から,最先端の手法をはるかに高速に超越した性能を示す。
論文 参考訳(メタデータ) (2025-06-16T09:42:38Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - Pathways on the Image Manifold: Image Editing via Video Generation [11.891831122571995]
我々は、事前訓練されたビデオモデルを用いて、画像編集を時間的プロセスとして再構成し、元の画像から所望の編集へのスムーズな遷移を生成する。
提案手法は,テキストベースの画像編集における最先端の成果を達成し,編集精度と画像保存の両面で有意な改善を示した。
論文 参考訳(メタデータ) (2024-11-25T16:41:45Z) - Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - Taming Rectified Flow for Inversion and Editing [57.3742655030493]
FLUXやOpenSoraのような定流拡散変換器は、画像生成やビデオ生成の分野で優れた性能を発揮している。
その堅牢な生成能力にもかかわらず、これらのモデルは不正確さに悩まされることが多い。
本研究では,修正流の逆流過程における誤差を軽減し,インバージョン精度を効果的に向上する訓練自由サンプリング器RF-rを提案する。
論文 参考訳(メタデータ) (2024-11-07T14:29:02Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models [53.757752110493215]
テキストベースの一般的な編集フレームワーク – 編集フレンドリーなDDPM-noiseインバージョンアプローチ – に注目します。
高速サンプリング法への適用を解析し、その失敗を視覚的アーティファクトの出現と編集強度の不足という2つのクラスに分類する。
そこで我々は,新しいアーティファクトを導入することなく,効率よく編集の規模を拡大する疑似誘導手法を提案する。
論文 参考訳(メタデータ) (2024-08-01T17:27:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。