論文の概要: TReFT: Taming Rectified Flow Models For One-Step Image Translation
- arxiv url: http://arxiv.org/abs/2511.20307v1
- Date: Tue, 25 Nov 2025 13:46:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.485315
- Title: TReFT: Taming Rectified Flow Models For One-Step Image Translation
- Title(参考訳): TreFT:一段階の画像翻訳のための整流モデル
- Authors: Shengqian Li, Ming Gao, Yi Liu, Zuzeng Lin, Feng Wang, Feng Dai,
- Abstract要約: リクティファイド・フロー(RF)モデルは、最適な輸送理論を通じて高品質な画像とビデオ合成を行う。
最近の逆行訓練パラダイムであるCycleGAN-Turboは、1段階画像翻訳のための事前訓練された拡散モデルで動作する。
本稿では,一段階画像翻訳のためのTReFTを提案する。
- 参考スコア(独自算出の注目度): 14.163642176966036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rectified Flow (RF) models have advanced high-quality image and video synthesis via optimal transport theory. However, when applied to image-to-image translation, they still depend on costly multi-step denoising, hindering real-time applications. Although the recent adversarial training paradigm, CycleGAN-Turbo, works in pretrained diffusion models for one-step image translation, we find that directly applying it to RF models leads to severe convergence issues. In this paper, we analyze these challenges and propose TReFT, a novel method to Tame Rectified Flow models for one-step image Translation. Unlike previous works, TReFT directly uses the velocity predicted by pretrained DiT or UNet as output-a simple yet effective design that tackles the convergence issues under adversarial training with one-step inference. This design is mainly motivated by a novel observation that, near the end of the denoising process, the velocity predicted by pretrained RF models converges to the vector from origin to the final clean image, a property we further justify through theoretical analysis. When applying TReFT to large pretrained RF models such as SD3.5 and FLUX, we introduce memory-efficient latent cycle-consistency and identity losses during training, as well as lightweight architectural simplifications for faster inference. Pretrained RF models finetuned with TReFT achieve performance comparable to sota methods across multiple image translation datasets while enabling real-time inference.
- Abstract(参考訳): リクティファイド・フロー(RF)モデルは、最適な輸送理論を通じて高品質な画像とビデオ合成を行う。
しかし、画像から画像への変換に適用する場合は、コストのかかるマルチステップの denoising に依存し、リアルタイムアプリケーションを妨げる。
最近の逆行訓練パラダイムであるCycleGAN-Turboは、一段階画像翻訳のための事前訓練された拡散モデルで動作するが、RFモデルに直接適用することで、深刻な収束問題を引き起こす。
本稿では,これらの課題を分析し,一段階画像翻訳のためのTrea Rectified Flowモデルのための新しい手法であるTreFTを提案する。
以前の研究とは異なり、TReFTは事前訓練されたDiTやUNetによって予測される速度を直接的に出力として用いており、一段階の推論による敵の訓練下での収束問題に対処する。
この設計は、デノナイジング過程の終わり近くで、事前学習されたRFモデルによって予測される速度が、原点から最終クリーン画像へとベクトルに収束するという、理論解析によってさらに正当化される特性によって主に動機付けられている。
SD3.5 や FLUX などの大規模トレーニング済みRFモデルに TReFT を適用した場合,トレーニング中のメモリ効率の高い遅延サイクル一貫性とアイデンティティ損失を導入し,より高速な推論のための軽量なアーキテクチャ単純化を行う。
TReFTで微調整された事前訓練されたRFモデルは、リアルタイム推論を可能にしながら、複数の画像翻訳データセットにわたるソタメソッドに匹敵する性能を達成する。
関連論文リスト
- Optimizing for the Shortest Path in Denoising Diffusion Model [8.884907787678731]
最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。
複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。
この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文 参考訳(メタデータ) (2025-03-05T08:47:36Z) - One Diffusion Step to Real-World Super-Resolution via Flow Trajectory Distillation [60.54811860967658]
FluxSRはフローマッチングモデルに基づく新しい一段階拡散リアルISRである。
まず,フロートラジェクトリ蒸留(FTD)を導入し,多段階のフローマッチングモデルを1段階のリアルISRに蒸留する。
第2に、画像リアリズムを改善し、生成画像の高周波アーティファクト問題に対処するために、テレビLPIPSを知覚的損失として提案する。
論文 参考訳(メタデータ) (2025-02-04T04:11:29Z) - An Ordinary Differential Equation Sampler with Stochastic Start for Diffusion Bridge Models [13.00429687431982]
拡散ブリッジモデルは、純粋なガウスノイズではなく、劣化した画像から生成過程を初期化する。
既存の拡散ブリッジモデルは、しばしば微分方程式のサンプリングに頼り、推論速度が遅くなる。
拡散ブリッジモデルの開始点を有する高次ODEサンプリング器を提案する。
本手法は, 既訓練拡散ブリッジモデルと完全に互換性があり, 追加の訓練は不要である。
論文 参考訳(メタデータ) (2024-12-28T03:32:26Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。