論文の概要: VeCoR - Velocity Contrastive Regularization for Flow Matching
- arxiv url: http://arxiv.org/abs/2511.18942v1
- Date: Mon, 24 Nov 2025 09:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.146884
- Title: VeCoR - Velocity Contrastive Regularization for Flow Matching
- Title(参考訳): VeCoR - フローマッチングのための速度コントラスト規則化
- Authors: Zong-Wei Hong, Jing-lun Li, Lin-Ze Li, Shen Zhang, Yao Tang,
- Abstract要約: フローマッチング (FM) は拡散モデルの原理的かつ効率的な代替手段として登場した。
フローベース生成モデルのための補完的学習手法であるtextbfVe Contrastive Regularization (VeCoR) を提案する。
VeCoRは予測速度を安定した基準方向と整列するが、不整合なオフマニフォールド方向から遠ざける。
- 参考スコア(独自算出の注目度): 14.085550822701853
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Flow Matching (FM) has recently emerged as a principled and efficient alternative to diffusion models. Standard FM encourages the learned velocity field to follow a target direction; however, it may accumulate errors along the trajectory and drive samples off the data manifold, leading to perceptual degradation, especially in lightweight or low-step configurations. To enhance stability and generalization, we extend FM into a balanced attract-repel scheme that provides explicit guidance on both "where to go" and "where not to go." To be formal, we propose \textbf{Velocity Contrastive Regularization (VeCoR)}, a complementary training scheme for flow-based generative modeling that augments the standard FM objective with contrastive, two-sided supervision. VeCoR not only aligns the predicted velocity with a stable reference direction (positive supervision) but also pushes it away from inconsistent, off-manifold directions (negative supervision). This contrastive formulation transforms FM from a purely attractive, one-sided objective into a two-sided training signal, regularizing trajectory evolution and improving perceptual fidelity across datasets and backbones. On ImageNet-1K 256$\times$256, VeCoR yields 22\% and 35\% relative FID reductions on SiT-XL/2 and REPA-SiT-XL/2 backbones, respectively, and achieves further FID gains (32\% relative) on MS-COCO text-to-image generation, demonstrating consistent improvements in stability, convergence, and image quality, particularly in low-step and lightweight settings. Project page: https://p458732.github.io/VeCoR_Project_Page/
- Abstract(参考訳): フローマッチング(FM)は近年,拡散モデルの原理的かつ効率的な代替手段として出現している。
標準FMは学習速度場が目標方向に従うことを奨励するが、軌道に沿って誤差を蓄積し、データ多様体からサンプルを駆動し、特に軽量または低段構成において知覚上の劣化を引き起こす。
安定性と一般化を向上するため,我々はFMを「どこへ行くべきか」と「どこへ行かないのか」の両方について明確なガイダンスを提供するバランスの取れた誘引方式に拡張する。
形式的に言えば、フローベース生成モデルのための補完的なトレーニングスキームである textbf{Velocity Contrastive Regularization (VeCoR) を提案する。
VeCoRは、予測速度を安定した基準方向(正の監督)と整列するだけでなく、不整合なオフマンフォールド方向(負の監督)から遠ざける。
この対照的な定式化は、FMを純粋に魅力的で一方的な目的から両側の訓練信号に変換し、軌道の進化を規則化し、データセットやバックボーン間の知覚的忠実性を改善する。
ImageNet-1K 256$\times$256 では、VeCoR は SiT-XL/2 と REPA-SiT-XL/2 のバックボーンに対して 22\% と 35\% の相対 FID 削減を達成し、MS-COCO のテキスト・ツー・イメージ生成においてさらに FID ゲイン (32\% の相対) を達成し、安定性、収束性、画像品質、特に低ステップおよび軽量な設定において一貫した改善を示す。
プロジェクトページ: https://p458732.github.io/VeCoR_Project_Page/
関連論文リスト
- MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Rectified-CFG++ for Flow Based Models [26.896426878221718]
本稿では,修正フローの決定論的効率を幾何学的条件付きルールと組み合わせた適応型予測器・補正器ガイダンスであるRectified-C++を提案する。
大規模なテキスト・ツー・イメージモデル(Flux, Stable Diffusion 3/3.5, Lumina)の実験では、Rectified-C++がベンチマークデータセットの標準CFGを一貫して上回っていることが示されている。
論文 参考訳(メタデータ) (2025-10-09T00:00:47Z) - Optimal Control Meets Flow Matching: A Principled Route to Multi-Subject Fidelity [35.95129874095729]
テキスト・トゥ・イメージ(T2I)モデルは単一エンタリティ・プロンプトに優れるが、多目的記述に苦慮する。
マルチオブジェクト忠実度に向けてサンプリングダイナミクスを操るための原理的最適化可能な目的を持った最初の理論的枠組みを導入する。
論文 参考訳(メタデータ) (2025-10-02T17:59:58Z) - How and Why: Taming Flow Matching for Unsupervised Anomaly Detection and Localization [15.283777345273089]
時間反転フローマッチングの概念をベクトル場回帰として定式化する。
線形確率経路を持つFMは本質的に非可逆であることを示す。
本研究は,非教師付き異常検出タスクに対するFMの最初の成功例を示す。
論文 参考訳(メタデータ) (2025-08-07T15:02:07Z) - Solving Inverse Problems with FLAIR [68.87167940623318]
本稿では,フローベース生成モデルを逆問題に先立って活用する学習自由変分フレームワークFLAIRを提案する。
標準画像ベンチマークの結果、FLAIRは再現性やサンプルの多様性の観点から、既存の拡散法や流れ法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-06-03T09:29:47Z) - FLEX: A Backbone for Diffusion-Based Modeling of Spatio-temporal Physical Systems [51.15230303652732]
FLEX (F Low Expert) は、時間物理系の生成モデリングのためのバックボーンアーキテクチャである。
拡散モデルにおける速度場の分散を低減し、トレーニングの安定化に役立つ。
少数の特徴を2つの逆拡散ステップとして用いて、超解像および予測タスクの正確な予測を行う。
論文 参考訳(メタデータ) (2025-05-23T00:07:59Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Biased Federated Learning under Wireless Heterogeneity [7.3716675761469945]
Federated Learning(FL)は計算のための有望なフレームワークであり、プライベートデータを共有せずに協調的なモデルトレーニングを可能にする。
既存の無線計算処理では,(1)無線信号重畳を利用するOTA(Over-the-air)と(2)収束のためのリソースを割り当てるOTA(Over-the-air)の2つの通信戦略が採用されている。
本稿では,新しいOTAおよびデジタルFL更新を提案する。
論文 参考訳(メタデータ) (2025-03-08T05:55:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。