論文の概要: Straighten Viscous Rectified Flow via Noise Optimization
- arxiv url: http://arxiv.org/abs/2507.10218v1
- Date: Mon, 14 Jul 2025 12:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.872728
- Title: Straighten Viscous Rectified Flow via Noise Optimization
- Title(参考訳): 騒音最適化による直線粘性流
- Authors: Jimin Dai, Jiexi Yan, Jian Yang, Lei Luo,
- Abstract要約: Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としている。
本稿では,Reflowにおける限界,特に構築された決定論的結合と実画像の分布ギャップに起因する高品質な画像を高速に生成できないことを明らかにする。
本稿では,エンコーダとニューラル速度場を組み合わせた共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
- 参考スコア(独自算出の注目度): 24.065483360595458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Reflow operation aims to straighten the inference trajectories of the rectified flow during training by constructing deterministic couplings between noises and images, thereby improving the quality of generated images in single-step or few-step generation. However, we identify critical limitations in Reflow, particularly its inability to rapidly generate high-quality images due to a distribution gap between images in its constructed deterministic couplings and real images. To address these shortcomings, we propose a novel alternative called Straighten Viscous Rectified Flow via Noise Optimization (VRFNO), which is a joint training framework integrating an encoder and a neural velocity field. VRFNO introduces two key innovations: (1) a historical velocity term that enhances trajectory distinction, enabling the model to more accurately predict the velocity of the current trajectory, and (2) the noise optimization through reparameterization to form optimized couplings with real images which are then utilized for training, effectively mitigating errors caused by Reflow's limitations. Comprehensive experiments on synthetic data and real datasets with varying resolutions show that VRFNO significantly mitigates the limitations of Reflow, achieving state-of-the-art performance in both one-step and few-step generation tasks.
- Abstract(参考訳): Reflow操作は、ノイズと画像間の決定論的結合を構築することにより、トレーニング中の補正流れの推論軌跡を的確にすることを目的としており、これにより、単一ステップまたは少数ステップ生成における生成画像の品質を向上させる。
しかし,Reflowの限界,特に構築された決定論的結合と実画像の分布ギャップにより,高品質な画像が高速に生成できないことを明らかにする。
これらの欠点に対処するために、エンコーダと神経速度場を統合する共同トレーニングフレームワークであるStraighten Viscous Rectified Flow via Noise Optimization (VRFNO)を提案する。
VRFNOは,(1)軌跡の区別を向上し,現在の軌跡の速度をより正確に予測することのできる履歴速度項,(2)リパラメータ化による雑音の最適化により,トレーニングに利用した実画像との最適化結合を形成し,Reflowの限界によるエラーを効果的に軽減する,という2つの重要なイノベーションを導入している。
様々な解像度の合成データと実際のデータセットに関する総合的な実験は、VRFNOがReflowの限界を著しく軽減し、一段階と二段階の両方で最先端のパフォーマンスを達成することを示している。
関連論文リスト
- Exploring Fourier Prior and Event Collaboration for Low-Light Image Enhancement [1.8724535169356553]
イベントカメラは低照度画像強調のための性能向上を提供する。
現在、既存のイベントベースのメソッドは、フレームとイベントを直接単一のモデルにフィードする。
本稿では,振幅-位相絡み付き可視性回復ネットワークを提案する。
第2段階では、空間的ミスマッチを軽減するために、動的アライメントを伴う融合戦略を提案する。
論文 参考訳(メタデータ) (2025-08-01T04:25:00Z) - Solving Inverse Problems with FLAIR [59.02385492199431]
フローベースの潜在生成モデルは、驚くべき品質の画像を生成でき、テキスト・ツー・イメージ生成も可能である。
本稿では,フローベース生成モデルを逆問題の前兆として活用する新しい学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - NAMI: Efficient Image Generation via Progressive Rectified Flow Transformers [11.087309945227826]
画像生成のためのフローベーストランスフォーマーモデルは、より大きなモデルパラメータを持つ最先端のパフォーマンスを達成したが、その推論配置コストは高いままである。
生成品質を維持しながら推論性能を向上させるため, プログレッシブ整流トランスを提案する。
実験により,本手法は高速収束を実現し,生成品質を確保しつつ,推論時間を短縮することを示した。
論文 参考訳(メタデータ) (2025-03-12T10:38:58Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
本稿では, この手法の軌道最適化を改良し, 復元品質と効率の両立に焦点をあてる。
反復サンプリングに伴うかなりの計算負担を軽減するため,コストを考慮したトラジェクトリー蒸留法を提案する。
提案アルゴリズムを用いて基礎拡散モデル(FLUX)を12Bパラメータで微調整し、7種類の画像復元タスクを処理する統一的なフレームワークを作成する。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。
TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。
これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文 参考訳(メタデータ) (2024-08-17T09:51:42Z) - Motion-prior Contrast Maximization for Dense Continuous-Time Motion Estimation [34.529280562470746]
コントラスト最大化フレームワークと非直線運動を組み合わせた新たな自己監督的損失を画素レベルの軌跡の形で導入する。
連続時間運動の高密度推定では, 合成学習モデルのゼロショット性能を29%向上する。
論文 参考訳(メタデータ) (2024-07-15T15:18:28Z) - FlowIE: Efficient Image Enhancement via Rectified Flow [71.6345505427213]
FlowIEはフローベースのフレームワークであり、基本的な分布から高品質な画像への直線パスを推定する。
私たちのコントリビューションは、合成および実世界のデータセットに関する包括的な実験を通じて、厳密に検証されています。
論文 参考訳(メタデータ) (2024-06-01T17:29:29Z) - SpikeReveal: Unlocking Temporal Sequences from Real Blurry Inputs with Spike Streams [44.02794438687478]
スパイクカメラは、動きの特徴を捉え、この不適切な問題を解くのに有効であることが証明されている。
既存の手法は教師付き学習パラダイムに陥り、現実のシナリオに適用した場合、顕著なパフォーマンス劣化に悩まされる。
本研究では,スパイク誘導動作の劣化に対する最初の自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-14T15:29:09Z) - Efficient Diffusion Model for Image Restoration by Residual Shifting [63.02725947015132]
本研究では,画像復元のための新しい,効率的な拡散モデルを提案する。
提案手法は,推論中の後処理の高速化を回避し,関連する性能劣化を回避する。
提案手法は,3つの古典的IRタスクにおける現在の最先端手法よりも優れた,あるいは同等の性能を実現する。
論文 参考訳(メタデータ) (2024-03-12T05:06:07Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Single Image Optical Flow Estimation with an Event Camera [38.92408855196647]
イベントカメラはバイオインスパイアされたセンサーで、マイクロ秒解像度の強度変化を報告している。
本稿では,単一画像(潜在的にぼやけた)とイベントに基づく光フロー推定手法を提案する。
論文 参考訳(メタデータ) (2020-04-01T11:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。