論文の概要: The Velocity Deficit: Initial Energy Injection for Flow Matching
- arxiv url: http://arxiv.org/abs/2605.14819v1
- Date: Thu, 14 May 2026 13:30:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-16 00:43:04.124825
- Title: The Velocity Deficit: Initial Energy Injection for Flow Matching
- Title(参考訳): 流速不足:フローマッチングのための初期エネルギー注入
- Authors: Linze Li, Zong-Wei Hong, Shen Zhang, Bo Lin, Jinglun Li, Yao Tang, Jiajun Liang,
- Abstract要約: 我々は,MSEの目的が速度の程度を体系的に過小評価し,生成したサンプルがデータ多様体に到達できないことを示す。
トレーニングベースMagnitude-Aware Flow Matching(MAFM)とSSC(Scale Schedule Corrector)の2つの相補的手法を用いて初期エネルギー注入を提案する。
本手法はテキスト・ツー・イメージタスクと高分解能生成に一般化し,MS-COCO上のFIDを22%向上させる。
- 参考スコア(独自算出の注目度): 26.02354798310309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Flow Matching theoretically guarantees constant-velocity trajectories, we identify a critical breakdown in high-dimensional practice: the Velocity Deficit. We show that the MSE objective systematically underestimates velocity magnitude, causing generated samples to fail to reach the data manifold-a phenomenon we term Integration Lag. To rectify this, we propose Initial Energy Injection, instantiated via two complementary methods: the training-based Magnitude-Aware Flow Matching (MAFM) and the training-free Scale Schedule Corrector (SSC). Both are grounded in our discovery of a crucial asymmetry: velocity contraction causes harmful kinetic stagnation at the trajectory's start, yet acts as a beneficial denoising mechanism at its end. Empirically, SSC yields significant efficiency gains with zero retraining and just one line of code. On ImageNet-1k (256x256), it improves FID by 44.6% (from 13.68 to 7.58) and achieves a 5x speedup, enabling a 50-step generator (FID 7.58) to beat a 250-step baseline (FID 8.65). Furthermore, our methods generalize to Text-to-Image tasks and high-resolution generation, improving FID on MS-COCO by ~22%.
- Abstract(参考訳): Flow Matchingは理論的には一定の速度軌道を保証しますが、高次元の実践において重要なブレークダウンであるVelocity Deficitを特定します。
我々は,MSEの目的が速度の程度を体系的に過小評価し,生成したサンプルがデータ多様体に到達するのに失敗することを示し,積分ラグ(Integration Lag)と呼ぶ現象を示す。
そこで我々は,トレーニングベースMagnitude-Aware Flow Matching (MAFM) とSSC (Scale Schedule Corrector) の2つの相補的手法を用いて初期エネルギー注入を提案する。
速度の収縮は軌道の開始時に有害な運動的な停滞を引き起こすが、その終わりには有益な分極機構として機能する。
経験的に、SSCは再トレーニングをゼロとし、たった1行のコードで大幅な効率向上をもたらす。
ImageNet-1k (256x256)では、FIDを44.6%改善し(13.68から7.58)、5倍のスピードアップを実現し、50ステップのジェネレータ(FID 7.58)が250ステップのベースライン(FID 8.65)を破ることができる。
さらに,テキスト・トゥ・イメージ・タスクと高分解能生成に一般化し,MS-COCO上のFIDを約22%改善した。
関連論文リスト
- Beta-Scheduling: Momentum from Critical Damping as a Diagnostic and Correction Tool for Neural Network Training [0.0]
標準ニューラルネットワークトレーニングでは、1964年までの規則である定数運動量(典型的には0.9)を用いており、その最適性について理論的に限定されている。
このベータスケジュールは、既存の学習率スケジュールを超えて、ゼロのフリーパラメータを必要とする。
ResNet-18/CIFAR-10では、ベータスケジューリングにより、一定の運動量よりも90%の精度で1.9倍の収束が得られる。
論文 参考訳(メタデータ) (2026-03-30T18:53:03Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - A 96pJ/Frame/Pixel and 61pJ/Event Anti-UAV System with Hybrid Object Tracking Modes [5.593237736175593]
本稿では,フレームベースとイベント駆動型オブジェクトトラッキングを統合したエネルギー効率の高い対UAVシステムを提案する。
2mm2チップは1ピクセル当たり96pJ、イベント毎61pJを0.8Vで達成し、パブリックUAVデータセットでの認識精度は98.2%に達する。
論文 参考訳(メタデータ) (2025-12-12T13:53:38Z) - Understanding, Accelerating, and Improving MeanFlow Training [64.84964628592418]
MeanFlowは、瞬時および平均速度場を共同で学習することで、数ステップで高品質な生成モデリングを実現する。
両速度間の相互作用を分析し, (i) 確立された即時速度は平均速度を学習するための前提条件である。
即時速度の生成を加速する効果的なトレーニングスキームを設計し、その後、短区間平均速度から短区間平均速度に重点を移す。
論文 参考訳(メタデータ) (2025-11-24T12:59:27Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - Compose Yourself: Average-Velocity Flow Matching for One-Step Speech Enhancement [46.23750572308065]
COSEは音声強調に適した一段階FMフレームワークである。
平均速度を効率的に計算するための速度合成IDを導入する。
実験によると、COSEはサンプリングを最大5倍速くし、トレーニングコストを40%削減する。
論文 参考訳(メタデータ) (2025-09-19T13:07:39Z) - FlowTS: Time Series Generation via Rectified Flow [67.41208519939626]
FlowTSは、確率空間における直線輸送を伴う整流フローを利用するODEベースのモデルである。
非条件設定では、FlowTSは最先端のパフォーマンスを達成し、コンテキストFIDスコアはStockとETThデータセットで0.019と0.011である。
条件設定では、太陽予測において優れた性能を達成している。
論文 参考訳(メタデータ) (2024-11-12T03:03:23Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - FastEmit: Low-latency Streaming ASR with Sequence-level Emission
Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。
既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。
本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T17:05:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。