論文の概要: Optimal Transport for Rectified Flow Image Editing: Unifying Inversion-Based and Direct Methods
- arxiv url: http://arxiv.org/abs/2508.02363v2
- Date: Sat, 20 Sep 2025 11:27:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.48641
- Title: Optimal Transport for Rectified Flow Image Editing: Unifying Inversion-Based and Direct Methods
- Title(参考訳): 直流画像編集のための最適移動:逆法と直接法を統一する
- Authors: Marian Lupascu, Mihai-Sorin Stupariu,
- Abstract要約: トランスポートベースのガイダンスは、異なる修正フロー編集アプローチ間で再構成精度と編集可能性のバランスをとることができる。
インバージョンベースの編集では,顔編集ベンチマークにおいてLPIPSスコア0.001とSSIM0.992の高忠実度再構成を実現する。
FLUXとStable Diffusion 3のFlowEditによるインバージョンフリー編集では、セマンティック一貫性と構造保存が一貫した改善を示す。
- 参考スコア(独自算出の注目度): 0.34376560669160394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image editing in rectified flow models remains challenging due to the fundamental trade-off between reconstruction fidelity and editing flexibility. While inversion-based methods suffer from trajectory deviation, recent inversion-free approaches like FlowEdit offer direct editing pathways but can benefit from additional guidance to improve structure preservation. In this work, we demonstrate that optimal transport theory provides a unified framework for improving both paradigms in rectified flow editing. We introduce a zero-shot transport-guided inversion framework that leverages optimal transport during the reverse diffusion process, and extend optimal transport principles to enhance inversion-free methods through transport-optimized velocity field corrections. Incorporating transport-based guidance can effectively balance reconstruction accuracy and editing controllability across different rectified flow editing approaches. For inversion-based editing, our method achieves high-fidelity reconstruction with LPIPS scores of 0.001 and SSIM of 0.992 on face editing benchmarks, observing 7.8% to 12.9% improvements over RF-Inversion on LSUN datasets. For inversion-free editing with FlowEdit on FLUX and Stable Diffusion 3, we demonstrate consistent improvements in semantic consistency and structure preservation across diverse editing scenarios. Our semantic face editing experiments show an 11.2% improvement in identity preservation and enhanced perceptual quality. The unified optimal transport framework produces visually compelling edits with superior detail preservation across both inversion-based and direct editing paradigms. Code is available for RF-Inversion and FlowEdit at: https://github.com/marianlupascu/OT-RF
- Abstract(参考訳): 再構成フローモデルにおける画像編集は、再構成忠実度と編集柔軟性の基本的なトレードオフのため、依然として困難である。
インバージョンベースの手法は軌道偏差に悩まされているが、FlowEditのような最近のインバージョンフリーアプローチは直接編集パスを提供するが、構造保存を改善するための追加のガイダンスの恩恵を受けることができる。
本研究では、最適輸送理論が、整流編集における両方のパラダイムを改善するための統一的な枠組みを提供することを示す。
逆拡散過程における最適輸送を利用するゼロショットトランスポート誘導インバージョンフレームワークを導入し、トランスポート最適化速度場補正によるインバージョンフリー手法を強化するために最適なトランスポート原理を拡張した。
トランスポートベースのガイダンスを組み込むことで、異なる修正フロー編集アプローチ間で再構成精度と編集可能性のバランスをとることができる。
インバージョンベース編集では,LPIPSスコアが0.001,SSIMが0.992,LSUNデータセットのRF-Inversionが7.8%から12.9%向上した。
FLUXとStable Diffusion 3のFlowEditによるインバージョンフリー編集では、さまざまな編集シナリオ間のセマンティック一貫性と構造保存が一貫した改善を示す。
顔のセマンティックな編集実験では、アイデンティティの保存が11.2%向上し、知覚品質が向上した。
統一された最適なトランスポートフレームワークは、インバージョンベースおよびダイレクト編集パラダイムの両方において、より優れたディテール保存を備えた視覚的に魅力的な編集を生成する。
RF-Inversion and FlowEdit at https://github.com/marianlupascu/OT-RF
関連論文リスト
- Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models [60.110274007388135]
MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。
MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2025-05-06T20:03:47Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
本稿では, この手法の軌道最適化を改良し, 復元品質と効率の両立に焦点をあてる。
反復サンプリングに伴うかなりの計算負担を軽減するため,コストを考慮したトラジェクトリー蒸留法を提案する。
提案アルゴリズムを用いて基礎拡散モデル(FLUX)を12Bパラメータで微調整し、7種類の画像復元タスクを処理する統一的なフレームワークを作成する。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - Residual-Conditioned Optimal Transport: Towards Structure-Preserving Unpaired and Paired Image Restoration [42.01716967725075]
画像復元のためのResidual-Conditioned Optimal Transport (RCOT) アプローチを提案する。
二重性により、RCOT問題は最小限の最適化問題に変換され、ニューラルネットワークを敵対的に訓練することで解決される。
論文 参考訳(メタデータ) (2024-05-05T08:19:04Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning
and Optimization Functions for Enhanced Precision [13.242184146186974]
本稿では,ディープニューラルネットワークと最適化に基づく画像登録のための単一のフレームワークを提案する。
また, 実験データの最大1.6%の改善と, 同じ推定時間を維持しつつ, 変形場平滑化における1.0%の性能向上を示す。
論文 参考訳(メタデータ) (2023-11-27T02:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。