論文の概要: Transport-Guided Rectified Flow Inversion: Improved Image Editing Using Optimal Transport Theory
- arxiv url: http://arxiv.org/abs/2508.02363v1
- Date: Mon, 04 Aug 2025 12:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.335782
- Title: Transport-Guided Rectified Flow Inversion: Improved Image Editing Using Optimal Transport Theory
- Title(参考訳): 搬送誘導整流インバージョン:最適輸送理論を用いた画像編集の改良
- Authors: Marian Lupascu, Mihai-Sorin Stupariu,
- Abstract要約: 整流モデルにおけるインバージョンプロセスの導出に最適な輸送インバージョンパイプライン(OTIP)を導入する。
我々の仮説は、トランスポートベースのガイダンスを組み込むことで、再構築精度と編集可能性のバランスをとることができるというものである。
LPIPSスコア0.001とSSIM0.992の高忠実度再構成を顔編集ベンチマーク上で実現した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective image inversion in rectified flow models - mapping real images to editable latent representations - is crucial for practical image editing applications; however, achieving optimal balance between reconstruction fidelity and editing flexibility remains a fundamental challenge. In this work, we introduce the Optimal Transport Inversion Pipeline (OTIP), a zero-shot framework that leverages optimal transport theory to guide the inversion process in rectified flow models. Our underlying hypothesis is that incorporating transport-based guidance during the reverse diffusion process can effectively balance reconstruction accuracy and editing controllability through principled trajectory optimization. The method computes optimal transport paths between image and noise distributions while maintaining computational efficiency. Our approach achieves high-fidelity reconstruction with LPIPS scores of 0.001 and SSIM of 0.992 on face editing benchmarks, demonstrating superior preservation of fine-grained details compared to existing methods. We evaluate the framework across multiple editing tasks, observing 7.8% to 12.9% improvements in reconstruction loss over RF-Inversion on the LSUN-Bedroom and LSUN-Church datasets, respectively. For semantic face editing, our method achieves an 11.2% improvement in identity preservation and a 1.6% enhancement in perceptual quality, while maintaining computational efficiency comparable to baseline approaches. Qualitatively, our method produces visually compelling edits with superior semantic consistency and fine-grained detail preservation across diverse editing scenarios. Code is available at: https://github.com/marianlupascu/OT-Inversion
- Abstract(参考訳): 修正フローモデルにおける効果的な画像インバージョン - 実際の画像を編集可能な潜在表現にマッピングする - は、実用的な画像編集アプリケーションにとって重要であるが、再構成の忠実度と編集の柔軟性の最適なバランスを達成することは、根本的な課題である。
本研究では, 最適輸送インバージョンパイプライン (OTIP) について紹介する。これはゼロショットフレームワークであり, 最適輸送理論を活用し, 整流モデルにおけるインバージョンプロセスの導出を行う。
我々の仮説は、逆拡散過程において輸送に基づくガイダンスを組み込むことで、原理的軌道最適化による再構成精度のバランスと制御可能性の編集を効果的に行うことができるというものである。
計算効率を保ちながら、画像と雑音の最適輸送経路を計算する。
本手法は,顔編集ベンチマークにおいて,LPIPSスコア0.001,SSIM0.992の高忠実度化を実現し,従来の方法に比べて細かな細部保存が優れていることを示す。
我々は,複数の編集タスクを対象としたフレームワークの評価を行い,LSUN-BedroomとLSUN-ChurchデータセットのRF-Inversionによる再構成損失を7.8%から12.9%改善した。
本手法は,セマンティック顔編集において,基本的アプローチに匹敵する計算効率を維持しつつ,識別の11.2%向上と知覚品質の1.6%向上を実現している。
本手法は,多種多様な編集シナリオにまたがって,セマンティック一貫性と細かな細部保存の優れた視覚的な編集を行う。
コードは、https://github.com/marianlupascu/OT-Inversionで入手できる。
関連論文リスト
- Inverse-and-Edit: Effective and Fast Image Editing by Cycle Consistency Models [1.9389881806157316]
本研究では,一貫性モデルを用いた画像のインバージョンを改善する新しいフレームワークを提案する。
本手法では,再設計精度を大幅に向上するサイクル一貫性最適化手法を提案する。
さまざまな画像編集タスクやデータセットに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-23T20:34:43Z) - MambaStyle: Efficient StyleGAN Inversion for Real Image Editing with State-Space Models [60.110274007388135]
MambaStyleは、GANインバージョンと編集のための効率的なシングルステージエンコーダベースのアプローチである。
MambaStyleは、逆精度、編集品質、計算効率のバランスが優れていることを示す。
論文 参考訳(メタデータ) (2025-05-06T20:03:47Z) - Uniform Attention Maps: Boosting Image Fidelity in Reconstruction and Editing [66.48853049746123]
構造的視点から再構築を解析し、従来の横断的注意を一様注意マップに置き換える新しいアプローチを提案する。
本手法は,ノイズ予測時のテキスト条件の変化による歪みを効果的に抑制する。
実験結果から,本手法は高忠実度画像再構成に優れるだけでなく,実際の画像合成や編集のシナリオにも頑健に機能することが示された。
論文 参考訳(メタデータ) (2024-11-29T12:11:28Z) - PostEdit: Posterior Sampling for Efficient Zero-Shot Image Editing [63.38854614997581]
拡散サンプリングプロセスを制御するために後続のスキームを組み込んだPostEditを導入する。
提案したPostEditは、未編集領域を正確に保存しながら、最先端の編集性能を実現する。
インバージョンもトレーニングも不要で、約1.5秒と18GBのGPUメモリを必要とするため、高品質な結果が得られる。
論文 参考訳(メタデータ) (2024-10-07T09:04:50Z) - Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
本稿では, この手法の軌道最適化を改良し, 復元品質と効率の両立に焦点をあてる。
反復サンプリングに伴うかなりの計算負担を軽減するため,コストを考慮したトラジェクトリー蒸留法を提案する。
提案アルゴリズムを用いて基礎拡散モデル(FLUX)を12Bパラメータで微調整し、7種類の画像復元タスクを処理する統一的なフレームワークを作成する。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - Residual-Conditioned Optimal Transport: Towards Structure-Preserving Unpaired and Paired Image Restoration [42.01716967725075]
画像復元のためのResidual-Conditioned Optimal Transport (RCOT) アプローチを提案する。
二重性により、RCOT問題は最小限の最適化問題に変換され、ニューラルネットワークを敵対的に訓練することで解決される。
論文 参考訳(メタデータ) (2024-05-05T08:19:04Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning
and Optimization Functions for Enhanced Precision [13.242184146186974]
本稿では,ディープニューラルネットワークと最適化に基づく画像登録のための単一のフレームワークを提案する。
また, 実験データの最大1.6%の改善と, 同じ推定時間を維持しつつ, 変形場平滑化における1.0%の性能向上を示す。
論文 参考訳(メタデータ) (2023-11-27T02:48:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。