論文の概要: EFlow: Fast Few-Step Video Generator Training from Scratch via Efficient Solution Flow
- arxiv url: http://arxiv.org/abs/2603.27086v1
- Date: Sat, 28 Mar 2026 02:06:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.776255
- Title: EFlow: Fast Few-Step Video Generator Training from Scratch via Efficient Solution Flow
- Title(参考訳): EFlow: 効率的な溶液流によるスクラッチからの高速Few-Stepビデオジェネレータの訓練
- Authors: Dogyun Park, Yanyu Li, Sergey Tulyakov, Anil Kag,
- Abstract要約: EFlowは、ビデオ拡散トランスフォーマーのための効率的な数ステップのトレーニングフレームワークである。
Gated Local-Global Attentionはトークンドロップ可能なハイブリッドブロックである。
Path-Drop Guidedトレーニングは、高価なターゲットを計算的に安価で弱いパスに置き換える。
- 参考スコア(独自算出の注目度): 52.73538517981873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling video diffusion transformers is fundamentally bottlenecked by two compounding costs: the expensive quadratic complexity of attention per step, and the iterative sampling steps. In this work, we propose EFlow, an efficient few-step training framework, that tackles these bottlenecks simultaneously. To reduce sampling steps, we build on a solution-flow objective that learns a function mapping a noised state at time t to time s. Making this formulation computationally feasible and high-quality at video scale, however, demands two complementary innovations. First, we propose Gated Local-Global Attention, a token-droppable hybrid block which is efficient, expressive, and remains highly stable under aggressive random token-dropping, substantially reducing per-step compute. Second, we develop an efficient few-step training recipe. We propose Path-Drop Guided training to replace the expensive guidance target with a computationally cheap, weak path. Furthermore, we augment this with a Mean-Velocity Additivity regularizer to ensure high fidelity at extremely low step counts. Together, our EFlow enables a practical from-scratch training pipeline, achieving up to 2.5x higher training throughput over standard solution-flow, and 45.3x lower inference latency than standard iterative models with competitive performance on Kinetics and large-scale text-to-video datasets.
- Abstract(参考訳): ビデオ拡散トランスフォーマーのスケーリングには,2つの複合コスト – ステップ毎の注意の2次複雑さ,反復的なサンプリングステップ – が基本的ボトルネックとなっている。
本研究では,これらのボトルネックに同時に対処する,効率的な数ステップトレーニングフレームワークであるEFlowを提案する。
サンプリングステップを削減するため,時間tから時間sに雑音をマッピングする関数を学習する解フロー目標を構築した。
しかし、この定式化をビデオスケールで計算可能で高品質にするには、2つの補完的な革新が必要である。
まず,高効率で表現力があり,攻撃的ランダムなトークンドロッププでは安定であり,ステップごとの計算処理を大幅に削減できるGated Local-Global Attentionを提案する。
第2に、効率的な数ステップのトレーニングレシピを開発する。
本稿では,高価な誘導目標を安価で弱い経路に置き換えるためのパス・ドロップ指導訓練を提案する。
さらに、極低段数での高忠実度を確保するため、平均速度加算正則化器を用いてこれを拡張する。
同時に、EFlowは実践的なオンスクラッチトレーニングパイプラインを可能にし、標準的なソリューションフローよりも最大2.5倍高いトレーニングスループットを実現し、Kineticsと大規模テキスト・トゥ・データデータセット上での競合的なパフォーマンスを持つ標準反復モデルよりも45.3倍低い推論レイテンシを実現しています。
関連論文リスト
- FastFlow: Accelerating The Generative Flow Matching Models with Bandit Inference [10.34801095627052]
フローマッチングモデルは、画像およびビデオ生成における最先端の忠実度を提供するが、固有のシーケンシャルなデノジングプロセスはそれらを遅くする。
我々は,フローマッチングモデルの生成を高速化するプラグイン・アンド・プレイ適応型推論フレームワークであるFastFlowを提案する。
実験では、高品質な出力を維持しながら2.6倍以上のスピードアップを示す。
論文 参考訳(メタデータ) (2026-02-11T18:21:11Z) - FlowConsist: Make Your Flow Consistent with Real Trajectory [99.22869983378062]
現在の高速フロートレーニングパラダイムには,2つの根本的な問題がある,と我々は主張する。
ランダムにペアリングされたノイズデータサンプルから構築された条件付き速度は、系統的な軌跡ドリフトを導入する。
本研究では,高速フローにおける軌道整合性を実現するためのトレーニングフレームワークであるFlowConsistを提案する。
論文 参考訳(メタデータ) (2026-02-06T03:24:23Z) - TwinFlow: Realizing One-step Generation on Large Models with Self-adversarial Flows [25.487712175353035]
1ステップ生成モデルをトレーニングするフレームワークであるTwinFlowを提案する。
本手法は,テキスト・ツー・イメージタスクにおいて1-NFEで0.83のGenEvalスコアを得る。
提案手法は,GenEval および DPG-Bench ベンチマーク上でのオリジナルの 100-NFE モデルの性能と一致する。
論文 参考訳(メタデータ) (2025-12-03T07:45:46Z) - Flow Straighter and Faster: Efficient One-Step Generative Modeling via MeanFlow on Rectified Trajectories [14.36205662558203]
Rectified MeanFlowは、単一のリフローステップのみを使用して、修正された軌道に沿った平均速度場をモデル化するフレームワークである。
64、256、および512の解像度でのImageNetの実験では、Re-MeanFlowは、サンプルの品質とトレーニング効率の両方で、一段階の蒸留法とRectified Flow法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-11-28T16:50:08Z) - One-Step Generative Policies with Q-Learning: A Reformulation of MeanFlow [56.13949180229929]
ノイズを直接行動にマッピングするオフライン強化学習のための一段階の生成ポリシーを,MeanFlowの残留的な再構成を通じて導入する。
本手法はオフライン・オフライン両方の強化学習環境において高い性能を実現する。
論文 参考訳(メタデータ) (2025-11-17T06:34:17Z) - MeanFlow Transformers with Representation Autoencoders [71.45823902973349]
MeanFlow(MF)は、ノイズからデータへのジャンプを直接学習することで、効率的な数ステップ生成を可能にする拡散動機付き生成モデルである。
我々は、表現オートエンコーダ(RAE)の潜在空間におけるMFの効率的なトレーニングとサンプリング手法を開発する。
1ステップのFIDが2.03であり,バニラMFの3.43を上回っ,GFLOPSのサンプリングを38%削減し,ImageNet 256のトレーニングコストを83%削減した。
論文 参考訳(メタデータ) (2025-11-17T06:17:08Z) - ProReflow: Progressive Reflow with Decomposed Velocity [52.249464542399636]
フローマッチングは、拡散モデルの拡散過程を数ステップまたは1ステップ生成のために直線に再フローすることを目的としている。
局所的な時間ステップで拡散モデルを段階的に再フローし,拡散全体を進行させるプログレッシブ・リフローを導入する。
また,フローマッチングにおける方向整合の重要性を強調し,位置整合性を考慮したV-Predictionを導入する。
論文 参考訳(メタデータ) (2025-03-05T04:50:53Z) - Improving the Training of Rectified Flows [14.652876697052156]
拡散モデルは画像生成とビデオ生成に大いに期待できるが、最先端モデルからのサンプリングには高コストの数値積分が必要である。
この問題に対処するための1つのアプローチは整流流であり、これは繰り返し、トランケーションエラーの影響を受けにくい滑らかなODEパスを学習する。
本研究は,NFEの低い環境下においても,改質流れを訓練するための改良手法を提案する。
改良された改質流は, 整合蒸留, 進行蒸留といった最先端蒸留法を1段階, 2段階で上回った。
論文 参考訳(メタデータ) (2024-05-30T17:56:04Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。