論文の概要: FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
- arxiv url: http://arxiv.org/abs/2512.24724v1
- Date: Wed, 31 Dec 2025 08:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.612905
- Title: FlowBlending: Stage-Aware Multi-Model Sampling for Fast and High-Fidelity Video Generation
- Title(参考訳): FlowBlending:高速かつ高忠実なビデオ生成のためのステージ対応マルチモデルサンプリング
- Authors: Jibin Song, Mingi Kwon, Jaeseok Jeong, Youngjung Uh,
- Abstract要約: FlowBlendingは、大モデルと小モデルを用いて、キャパシティに敏感なステージと中間ステージで、ステージ対応のマルチモデルサンプリング戦略である。
LTX-Video (2B/13B) と WAN 2.1 (1.3B/14B) 全体で、FlowBlending は FLOP を57.35%減らして 1.65 倍高速な推論を実現している。
- 参考スコア(独自算出の注目度): 19.226787997122987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work, we show that the impact of model capacity varies across timesteps: it is crucial for the early and late stages but largely negligible during the intermediate stage. Accordingly, we propose FlowBlending, a stage-aware multi-model sampling strategy that employs a large model and a small model at capacity-sensitive stages and intermediate stages, respectively. We further introduce simple criteria to choose stage boundaries and provide a velocity-divergence analysis as an effective proxy for identifying capacity-sensitive regions. Across LTX-Video (2B/13B) and WAN 2.1 (1.3B/14B), FlowBlending achieves up to 1.65x faster inference with 57.35% fewer FLOPs, while maintaining the visual fidelity, temporal coherence, and semantic alignment of the large models. FlowBlending is also compatible with existing sampling-acceleration techniques, enabling up to 2x additional speedup. Project page is available at: https://jibin86.github.io/flowblending_project_page.
- Abstract(参考訳): 本研究は,モデルキャパシティの影響が時間段階によって異なることを示す。
そこで本稿では,大容量モデルと小容量モデルを用いた段階対応型マルチモデルサンプリング戦略であるFlowBlendingを提案する。
さらに、ステージ境界を選択するための簡単な基準を導入し、キャパシティに敏感な領域を特定するための効果的なプロキシとしてベロシティ・ディバージェンス分析を提供する。
LTX-Video (2B/13B) と WAN 2.1 (1.3B/14B) にまたがって、FlowBlending は 57.35% の FLOP で最大 1.65 倍高速な推論を実現し、大きなモデルの視覚的忠実さ、時間的コヒーレンス、セマンティックアライメントを維持している。
FlowBlendingは既存のサンプリングアクセラレーション技術とも互換性があり、最大2倍のスピードアップが可能である。
プロジェクトページは、https://jibin86.github.io/flowblending_project_page.comで公開されている。
関連論文リスト
- Joint Distillation for Fast Likelihood Evaluation and Sampling in Flow-based Models [100.28111930893188]
今日の最高の生成モデルの中には、単一の可能性を計算するために、数百から数千の神経機能評価を必要とするものもあります。
本研究では, 高速流動継手蒸留法 (F2D2) を提案し, サンプリングに必要なNFEの数を2桁に減らした。
F2D2はモジュール構造であり、既存のフローベースの数ステップサンプリングモデルと互換性がある。
論文 参考訳(メタデータ) (2025-12-02T10:48:20Z) - Decoupled MeanFlow: Turning Flow Models into Flow Maps for Accelerated Sampling [68.76215229126886]
Decoupled MeanFlowは、フローモデルをアーキテクチャ変更なしにフローマップモデルに変換するシンプルなデコード戦略である。
提案手法では, 拡散変圧器の最終ブロックを後続の時間ステップに設定し, 事前学習した流れモデルを直接フローマップとして再利用する。
ImageNet 256x256 と 512x512 では、われわれのモデルはそれぞれ2.16 と2.12 の1ステップ FID に達し、先行技術よりも大きなマージンで上回っている。
論文 参考訳(メタデータ) (2025-10-28T14:43:48Z) - CHORDS: Diffusion Sampling Accelerator with Multi-core Hierarchical ODE Solvers [72.23291099555459]
拡散に基づく生成モデルは、高忠実度画像やビデオの主要な生成元となっているが、計算コストのかかる推論手順によって制限されている。
本稿では,マルチコア並列処理による一般,トレーニング不要,モデルに依存しない高速化戦略について検討する。
ChoRDSは様々な大規模画像およびビデオ拡散モデルのサンプリングを著しく加速し、4コアで2.1倍のスピードアップを実現し、ベースラインで50%改善し、8コアで2.9倍のスピードアップを実現した。
論文 参考訳(メタデータ) (2025-07-21T05:48:47Z) - Align Your Flow: Scaling Continuous-Time Flow Map Distillation [63.927438959502226]
フローマップは、任意の2つのノイズレベルを1ステップで接続し、すべてのステップカウントで有効に保ちます。
画像生成ベンチマークにおいて、Align Your Flowと呼ばれるフローマップモデルを広範囲に検証する。
テキスト条件付き合成において、既存の非横断的訓練された数ステップのサンプルよりも優れたテキスト間フローマップモデルを示す。
論文 参考訳(メタデータ) (2025-06-17T15:06:07Z) - Rectified Flows for Fast Multiscale Fluid Flow Modeling [11.597597438962026]
時間依存速度場を学習する修正フローフレームワークを提案する。
我々の手法は、各統合ステップをより効果的にし、わずか8ステップで済むようにします。
マルチスケール・フロー・ベンチマーク実験により, 整流流は拡散モデルと同じ後部分布を回復することが示された。
論文 参考訳(メタデータ) (2025-06-03T17:40:39Z) - Mean Flows for One-step Generative Modeling [64.4997821467102]
本稿では,一段階生成モデリングのための原理的かつ効果的なフレームワークを提案する。
ニューラルネットワークトレーニングのガイドには,平均速度と瞬時速度を適切に定義したアイデンティティが導出され,使用される。
提案手法はMeanFlowモデルと呼ばれ,自己完結型であり,事前学習,蒸留,カリキュラム学習は不要である。
論文 参考訳(メタデータ) (2025-05-19T17:59:42Z) - FlowTurbo: Towards Real-time Flow-Based Image Generation with Velocity Refiner [70.90505084288057]
フローベースモデルはサンプリングプロセス中により直線的なサンプリング軌道を生成する傾向にある。
擬似修正器やサンプル認識コンパイルなどいくつかの手法を導入し,推論時間をさらに短縮する。
FlowTurboはImageNet上で100(ms/img)で2.12FID、38(ms/img)で3.93FIDに達する
論文 参考訳(メタデータ) (2024-09-26T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。