論文の概要: Stable Velocity: A Variance Perspective on Flow Matching
- arxiv url: http://arxiv.org/abs/2602.05435v1
- Date: Thu, 05 Feb 2026 08:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.842936
- Title: Stable Velocity: A Variance Perspective on Flow Matching
- Title(参考訳): 安定速度:フローマッチングにおける変数視点
- Authors: Donglin Yang, Yongxing Zhang, Xin Yu, Liang Hou, Xin Tao, Pengfei Wan, Xiaojuan Qi, Renjie Liao,
- Abstract要約: トレーニングとサンプリングの両方を改善する統合フレームワークであるStable Velocityを提案する。
トレーニングには、偏りのない分散還元目標である安定速度マッチング(StableVM)を導入する。
ImageNetの$256times256$とSD3.5、Flux、Qwen-Image、Wan2.2など、事前訓練されたテキスト・ツー・イメージとビデオの大規模なモデルによる実験では、トレーニング効率が一貫した改善が示されている。
- 参考スコア(独自算出の注目度): 47.91689941155031
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While flow matching is elegant, its reliance on single-sample conditional velocities leads to high-variance training targets that destabilize optimization and slow convergence. By explicitly characterizing this variance, we identify 1) a high-variance regime near the prior, where optimization is challenging, and 2) a low-variance regime near the data distribution, where conditional and marginal velocities nearly coincide. Leveraging this insight, we propose Stable Velocity, a unified framework that improves both training and sampling. For training, we introduce Stable Velocity Matching (StableVM), an unbiased variance-reduction objective, along with Variance-Aware Representation Alignment (VA-REPA), which adaptively strengthen auxiliary supervision in the low-variance regime. For inference, we show that dynamics in the low-variance regime admit closed-form simplifications, enabling Stable Velocity Sampling (StableVS), a finetuning-free acceleration. Extensive experiments on ImageNet $256\times256$ and large pretrained text-to-image and text-to-video models, including SD3.5, Flux, Qwen-Image, and Wan2.2, demonstrate consistent improvements in training efficiency and more than $2\times$ faster sampling within the low-variance regime without degrading sample quality. Our code is available at https://github.com/linYDTHU/StableVelocity.
- Abstract(参考訳): フローマッチングはエレガントであるが、単一サンプル条件速度への依存は、最適化を不安定にし、収束を遅くする高分散トレーニング目標につながる。
この分散を明示的に特徴付けることによって、我々は特定する
1)最適化が困難である前者に近い高分散体制
2) データ分布付近の低分散状態では, 条件速度と限界速度がほぼ一致した。
この知見を活用して、トレーニングとサンプリングの両方を改善する統合フレームワークであるStable Velocityを提案する。
トレーニングでは,可変速度マッチング (StableVM) と変数認識表現アライメント (VA-REPA) を導入し,低分散体制における補助的監視を適応的に強化する。
推定では,低分散状態の力学は閉じた形状の単純化を許容し,安定速度サンプリング(StableVS)が可能となる。
ImageNet $256\times256$とSD3.5、Flux、Qwen-Image、Wan2.2といった大規模な事前訓練されたテキスト・ツー・ビデオモデルに対する大規模な実験は、トレーニング効率が一貫した改善を示し、サンプル品質を劣化させることなく、より高速なサンプリングを行う。
私たちのコードはhttps://github.com/linYDTHU/StableVelocity.comで利用可能です。
関連論文リスト
- Temporal Pair Consistency for Variance-Reduced Flow Matching [13.328987133593154]
TPC(Temporal Pair Consistency)は、同じ確率経路に沿ってペア化された時間ステップで速度予測を結合する軽量な分散還元原理である。
フローマッチング内で確立されたTPCは、複数の解像度でCIFAR-10とImageNetのサンプル品質と効率を改善する。
論文 参考訳(メタデータ) (2026-02-04T00:05:21Z) - Tilt Matching for Scalable Sampling and Fine-Tuning [4.14348726233299]
本研究では,非正規化密度のサンプルや微調整生成モデルに補間剤を用いるスケーラブルなアルゴリズムを提案する。
ティルトマッチング(Tilt Matching)という手法は、流れのマッチング速度と、報酬によって傾いた同じ分布をターゲットにした力学方程式から生じる。
我々は,この手法が効率的かつ高度に拡張可能であることを実証的に検証し,レナード・ジョーンズポテンシャルの下でのサンプリングにおける最先端の結果を提供し,微調整安定拡散に競争力を持つことを示した。
論文 参考訳(メタデータ) (2025-12-26T02:12:10Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - A-FloPS: Accelerating Diffusion Sampling with Adaptive Flow Path Sampler [21.134678093577193]
A-FloPSは、フローベースの生成モデルのための原則化された、トレーニング不要のフレームワークである。
A-FloPSは, 試料品質と効率の両面において, 最先端のトレーニング不要サンプリング器より一貫して優れていることを示す。
5ドルの関数評価で、A-FloPSはFIDを大幅に低くし、よりシャープでコヒーレントな画像を生成する。
論文 参考訳(メタデータ) (2025-08-22T13:28:16Z) - SADA: Stability-guided Adaptive Diffusion Acceleration [24.250318487331228]
拡散モデルは生成的タスクにおいて顕著な成功を収めたが、高い計算コストに悩まされている。
既存のトレーニングフリー加速戦略は、ステップごとの計算コストを削減しつつ、サンプリング時間を効果的に削減し、信頼性を低下させる。
本稿では, ODE に基づく生成モデルのサンプリングを高速化する新しいパラダイムとして, 安定誘導型適応拡散加速法 (SADA) を提案する。
論文 参考訳(メタデータ) (2025-07-23T02:15:45Z) - Advancing Reliable Test-Time Adaptation of Vision-Language Models under Visual Variations [67.35596444651037]
視覚言語モデル(VLM)は、素晴らしいゼロショット機能を示すが、ラベル付きデータが利用できない場合、下流タスクの分散シフトに苦慮する。
本稿では,信頼性を両面から高めるReliable Test-Time Adaptation (ReTA)法を提案する。
論文 参考訳(メタデータ) (2025-07-13T05:37:33Z) - Rectified Flows for Fast Multiscale Fluid Flow Modeling [11.597597438962026]
時間依存速度場を学習する修正フローフレームワークを提案する。
我々の手法は、各統合ステップをより効果的にし、わずか8ステップで済むようにします。
マルチスケール・フロー・ベンチマーク実験により, 整流流は拡散モデルと同じ後部分布を回復することが示された。
論文 参考訳(メタデータ) (2025-06-03T17:40:39Z) - Flow-GRPO: Training Flow Matching Models via Online RL [80.62659379624867]
本稿では,オンライン政策強化学習をフローマッチングモデルに統合する最初の方法であるFlow-GRPOを提案する。
提案手法では,(1)決定論的正規微分方程式を同値な微分方程式に変換するODE-to-SDE変換と,(2)推論ステップの数を維持しながらトレーニングの段階を短縮するDenoising Reduction戦略の2つの主要な戦略を用いる。
論文 参考訳(メタデータ) (2025-05-08T17:58:45Z) - StreamYOLO: Real-time Object Detection for Streaming Perception [84.2559631820007]
将来を予測する能力を備えたモデルを提供し、ストリーミング知覚の結果を大幅に改善する。
本稿では,複数の速度を駆動するシーンについて考察し,VasAP(Velocity-Awared streaming AP)を提案する。
本手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善する。
論文 参考訳(メタデータ) (2022-07-21T12:03:02Z) - Towards Fast, Accurate and Stable 3D Dense Face Alignment [73.01620081047336]
本稿では,速度,精度,安定性のバランスをとる3DDFA-V2という新しい回帰フレームワークを提案する。
本研究では,静止画を平面内と面外の動きを取り入れた映像に変換する仮想合成法を提案する。
論文 参考訳(メタデータ) (2020-09-21T15:37:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。