論文の概要: Free Lunch for Stabilizing Rectified Flow Inversion
- arxiv url: http://arxiv.org/abs/2602.11850v2
- Date: Fri, 13 Feb 2026 02:39:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 15:25:03.337467
- Title: Free Lunch for Stabilizing Rectified Flow Inversion
- Title(参考訳): 流動インバージョン安定化のための自由ランチ
- Authors: Chenru Wang, Beier Zhu, Chi Zhang,
- Abstract要約: リクティファイドフロー(RF)ベースの生成モデルは、従来の拡散モデルの強力な代替手段として現れてきた。
トレーニング不要な勾配補正法であるPMI(Pximal-Mean Inversion)を提案する。
また,タスクを編集するための軽量な速度補正手法であるsimmatic-CFGを導入する。
- 参考スコア(独自算出の注目度): 11.80912018629953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rectified-Flow (RF)-based generative models have recently emerged as strong alternatives to traditional diffusion models, demonstrating state-of-the-art performance across various tasks. By learning a continuous velocity field that transforms simple noise into complex data, RF-based models not only enable high-quality generation, but also support training-free inversion, which facilitates downstream tasks such as reconstruction and editing. However, existing inversion methods, such as vanilla RF-based inversion, suffer from approximation errors that accumulate across timesteps, leading to unstable velocity fields and degraded reconstruction and editing quality. To address this challenge, we propose Proximal-Mean Inversion (PMI), a training-free gradient correction method that stabilizes the velocity field by guiding it toward a running average of past velocities, constrained within a theoretically derived spherical Gaussian. Furthermore, we introduce mimic-CFG, a lightweight velocity correction scheme for editing tasks, which interpolates between the current velocity and its projection onto the historical average, balancing editing effectiveness and structural consistency. Extensive experiments on PIE-Bench demonstrate that our methods significantly improve inversion stability, image reconstruction quality, and editing fidelity, while reducing the required number of neural function evaluations. Our approach achieves state-of-the-art performance on the PIE-Bench with enhanced efficiency and theoretical soundness.
- Abstract(参考訳): Rectified-Flow (RF)ベースの生成モデルは、近年、従来の拡散モデルの強力な代替として現れ、様々なタスクにおける最先端のパフォーマンスを実証している。
単純なノイズを複雑なデータに変換する連続速度場を学習することにより、RFベースのモデルは高品質な生成を可能にするだけでなく、再構成や編集などの下流タスクを容易にするトレーニング不要のインバージョンもサポートする。
しかし、バニラRFベースの逆転法のような既存の逆転法は、時間経過とともに蓄積される近似誤差に悩まされ、不安定な速度場と劣化した再構成と編集品質に繋がる。
この課題に対処するために,理論的に導出された球面ガウス内における過去の速度の走行平均に向かって誘導することで,速度場を安定化する訓練自由勾配補正法であるPMIを提案する。
さらに,タスクの編集効率と構造的整合性のバランスを保ちながら,現在の速度と過去の平均への投影を補間する軽量な速度補正手法であるsimmatic-CFGを導入する。
PIE-Benchの広汎な実験により、我々の手法は、必要な神経機能評価数を削減しつつ、インバージョン安定性、画像再構成品質、編集精度を大幅に改善することを示した。
提案手法は,PIE-Benchの性能向上と理論音質の向上を両立させる。
関連論文リスト
- On Exact Editing of Flow-Based Diffusion Models [97.0633397035926]
本研究では,フローベース編集を既知ソースによって駆動される分散変換問題として再構成する条件付き速度補正(CVC)を提案する。
CVCは、双対パースペクティブな速度変換機構を導入することにより、分配間変換における速度の役割を再考する。
我々は,CVCが優れた忠実度,セマンティックアライメント,多種多様なタスクに対する信頼性の高い編集動作を一貫して達成していることを示す。
論文 参考訳(メタデータ) (2025-12-30T06:29:20Z) - Plug-and-Play Fidelity Optimization for Diffusion Transformer Acceleration via Cumulative Error Minimization [26.687056294842083]
キャッシュベースの手法は、かなりの計算誤差に悩まされながら、トレーニング不要な加速を実現する。
既存の手法では、プルーニングや予測などのエラー訂正戦略を取り入れて緩和するのが一般的である。
本稿では,CEM と呼ばれる累積誤差最小化による既存の誤り訂正手法のための新しい忠実度最適化プラグインを提案する。
論文 参考訳(メタデータ) (2025-12-29T07:36:36Z) - Error-Propagation-Free Learned Video Compression With Dual-Domain Progressive Temporal Alignment [92.57576987521107]
両ドメインのプログレッシブな時間的アライメントと品質条件の混合(QCMoE)を備えた新しい統合変換フレームワークを提案する。
QCMoEは、魅力的なR-Dパフォーマンスで連続的かつ一貫したレート制御を可能にする。
実験結果から,提案手法は最先端技術と比較して,競争力のあるR-D性能を実現することが示された。
論文 参考訳(メタデータ) (2025-12-11T09:14:51Z) - Physics-informed waveform inversion using pretrained wavefield neural operators [9.048550821334116]
フルウェーブフォームインバージョン(FWI)は高分解能地下モデルの再構築に不可欠である。
学習波動場ニューラル演算子を用いてFWIを加速する最近の試みは、効率と微分可能性の有望性を示している。
ニューラル演算子に基づくFWIの効率を維持しつつ、精度の反転を高める新しい物理インフォームドFWIフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T19:57:18Z) - A-FloPS: Accelerating Diffusion Sampling with Adaptive Flow Path Sampler [21.134678093577193]
A-FloPSは、フローベースの生成モデルのための原則化された、トレーニング不要のフレームワークである。
A-FloPSは, 試料品質と効率の両面において, 最先端のトレーニング不要サンプリング器より一貫して優れていることを示す。
5ドルの関数評価で、A-FloPSはFIDを大幅に低くし、よりシャープでコヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2025-08-22T13:28:16Z) - Straighten Viscous Rectified Flow via Noise Optimization [24.065483360595458]
Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としている。
本稿では,Reflowにおける限界,特に構築された決定論的結合と実画像の分布ギャップに起因する高品質な画像を高速に生成できないことを明らかにする。
本稿では,エンコーダとニューラル速度場を組み合わせた共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
論文 参考訳(メタデータ) (2025-07-14T12:35:17Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - Spatial Annealing for Efficient Few-shot Neural Rendering [73.49548565633123]
我々はtextbfSpatial textbf Annealing regularized textbfNeRF (textbfSANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。
単に1行のコードを追加することで、SANeRFは、現在の数ショットのニューラルレンダリング方法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文 参考訳(メタデータ) (2024-06-12T02:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。