論文の概要: FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
- arxiv url: http://arxiv.org/abs/2502.05179v1
- Date: Fri, 07 Feb 2025 18:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:56:20.232518
- Title: FlashVideo:Flowing Fidelity to Detail for Efficient High-Resolution Video Generation
- Title(参考訳): FlashVideo:高分解能ビデオ生成のための細かな流れの忠実さ
- Authors: Shilong Zhang, Wenbo Li, Shoufa Chen, Chongjian Ge, Peize Sun, Yida Zhang, Yi Jiang, Zehuan Yuan, Binyue Peng, Ping Luo,
- Abstract要約: DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
- 参考スコア(独自算出の注目度): 61.61415607972597
- License:
- Abstract: DiT diffusion models have achieved great success in text-to-video generation, leveraging their scalability in model capacity and data scale. High content and motion fidelity aligned with text prompts, however, often require large model parameters and a substantial number of function evaluations (NFEs). Realistic and visually appealing details are typically reflected in high resolution outputs, further amplifying computational demands especially for single stage DiT models. To address these challenges, we propose a novel two stage framework, FlashVideo, which strategically allocates model capacity and NFEs across stages to balance generation fidelity and quality. In the first stage, prompt fidelity is prioritized through a low resolution generation process utilizing large parameters and sufficient NFEs to enhance computational efficiency. The second stage establishes flow matching between low and high resolutions, effectively generating fine details with minimal NFEs. Quantitative and visual results demonstrate that FlashVideo achieves state-of-the-art high resolution video generation with superior computational efficiency. Additionally, the two-stage design enables users to preview the initial output before committing to full resolution generation, thereby significantly reducing computational costs and wait times as well as enhancing commercial viability .
- Abstract(参考訳): DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
現実的で視覚的に魅力的な詳細は、通常高解像度の出力に反映され、特に単一ステージのDiTモデルに対する計算要求をさらに増幅する。
これらの課題に対処するために,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる,新しい2つのステージフレームワークであるFlashVideoを提案する。
第1段階では、計算効率を高めるために、大きなパラメータと十分なNFEを利用する低分解能生成プロセスにより、プロンプト忠実度を優先する。
第2段階は、低解像度と高解像度のフローマッチングを確立し、最小のNFEで事実上細部を発生させる。
定量的かつ視覚的な結果から、FlashVideoは最先端の高解像度ビデオ生成を実現し、計算効率が優れていることが示されている。
さらに、2段階の設計により、ユーザーは全解像度生成にコミットする前に初期出力をプレビューすることができ、計算コストと待ち時間を大幅に削減し、商業的生存性を高めることができる。
関連論文リスト
- Multimodal Instruction Tuning with Hybrid State Space Models [25.921044010033267]
長いコンテキストは、多モーダルな大言語モデルの認識と理解能力を高めるために不可欠である。
本稿では,マルチモーダルアプリケーションにおける長時間のコンテキストを効率的に扱うために,ハイブリッドトランスフォーマー-MAMBAモデルを用いた新しい手法を提案する。
本モデルでは,高解像度画像と高フレーム映像の推論効率を現行モデルに比べて約4倍向上させる。
論文 参考訳(メタデータ) (2024-11-13T18:19:51Z) - Video Interpolation with Diffusion Models [54.06746595879689]
本稿では,ビデオ生成モデルであるVIDIMについて述べる。
VIDIMはカスケード拡散モデルを用いて、まず低解像度でターゲット映像を生成し、次に低解像度で生成されたビデオに条件付けされた高解像度映像を生成する。
論文 参考訳(メタデータ) (2024-04-01T15:59:32Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - I2VGen-XL: High-Quality Image-to-Video Synthesis via Cascaded Diffusion
Models [54.99771394322512]
ビデオ合成は拡散モデルの急速な発展の恩恵を受け、近年顕著な進歩を遂げている。
意味的正確性、明快さ、連続性-時間的連続性という観点ではまだ遭遇に挑戦する。
これら2つの要素を分離することでモデル性能を向上させるカスケードI2VGen-XL手法を提案する。
I2VGen-XLは、生成したビデオの意味的精度、詳細の連続性、明快さを同時に向上させることができる。
論文 参考訳(メタデータ) (2023-11-07T17:16:06Z) - LAVIE: High-Quality Video Generation with Cascaded Latent Diffusion
Models [133.088893990272]
我々は、訓練済みのテキスト・ツー・イメージ(T2I)モデルをベースとして、高品質なテキスト・ツー・ビデオ生成モデル(T2V)を学習する。
本稿では,遅延拡散モデルを用いた統合ビデオ生成フレームワークLaVieを提案する。
論文 参考訳(メタデータ) (2023-09-26T17:52:03Z) - Interpretable Detail-Fidelity Attention Network for Single Image
Super-Resolution [89.1947690981471]
本研究では,スムースとディテールを段階的に分割・収束的に処理する,目的・解釈可能なディテール・ファイダリティ・アテンション・ネットワークを提案する。
特に,詳細推論において顕著な解釈可能な特徴表現のためのヘシアンフィルタを提案する。
実験により,提案手法は最先端手法よりも優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2020-09-28T08:31:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。