論文の概要: SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device
- arxiv url: http://arxiv.org/abs/2412.10494v1
- Date: Fri, 13 Dec 2024 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:02:38.003565
- Title: SnapGen-V: Generating a Five-Second Video within Five Seconds on a Mobile Device
- Title(参考訳): SnapGen-V: モバイルデバイスで5秒以内に5秒のビデオを生成する
- Authors: Yushu Wu, Zhixing Zhang, Yanyu Li, Yanwu Xu, Anil Kag, Yang Sui, Huseyin Coskun, Ke Ma, Aleksei Lebedev, Ju Hu, Dimitris Metaxas, Yanzhi Wang, Sergey Tulyakov, Jian Ren,
- Abstract要約: 本稿では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
- 参考スコア(独自算出の注目度): 61.42406720183769
- License:
- Abstract: We have witnessed the unprecedented success of diffusion-based video generation over the past year. Recently proposed models from the community have wielded the power to generate cinematic and high-resolution videos with smooth motions from arbitrary input prompts. However, as a supertask of image generation, video generation models require more computation and are thus hosted mostly on cloud servers, limiting broader adoption among content creators. In this work, we propose a comprehensive acceleration framework to bring the power of the large-scale video diffusion model to the hands of edge users. From the network architecture scope, we initialize from a compact image backbone and search out the design and arrangement of temporal layers to maximize hardware efficiency. In addition, we propose a dedicated adversarial fine-tuning algorithm for our efficient model and reduce the denoising steps to 4. Our model, with only 0.6B parameters, can generate a 5-second video on an iPhone 16 PM within 5 seconds. Compared to server-side models that take minutes on powerful GPUs to generate a single video, we accelerate the generation by magnitudes while delivering on-par quality.
- Abstract(参考訳): 私たちはこの1年で、拡散ベースのビデオ生成が前例のない成功を収めたのを目撃しました。
近年、コミュニティから提案されたモデルでは、任意の入力プロンプトからスムーズな動きで映像や高解像度の映像を生成することができるようになった。
しかし、画像生成のスーパータスクとして、ビデオ生成モデルはより多くの計算を必要とするため、主にクラウドサーバーにホストされているため、コンテンツクリエーターの間で広く採用されることが制限される。
本研究では,大規模ビデオ拡散モデルのパワーをエッジユーザーにもたらすための包括的加速フレームワークを提案する。
ネットワークアーキテクチャの範囲から、コンパクトな画像バックボーンから初期化し、ハードウェア効率を最大化するために、時間層の設計と配置を探索する。
さらに,効率的なモデルのための専用逆調整アルゴリズムを提案し,デノナイジングステップを4。
我々のモデルは0.6Bのパラメータしか持たないため、iPhone 16 PMで5秒以内に5秒のビデオを生成することができる。
強力なGPUで1つのビデオを生成するのに数分かかるサーバーサイドモデルと比較して、私たちはオンパー品質を提供しながら、その生成を桁違いに加速します。
関連論文リスト
- From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - Adaptive Caching for Faster Video Generation with Diffusion Transformers [52.73348147077075]
拡散変換器(DiT)はより大きなモデルと重い注意機構に依存しており、推論速度が遅くなる。
本稿では,Adaptive Caching(AdaCache)と呼ばれる,ビデオDiTの高速化のためのトレーニング不要手法を提案する。
また,AdaCache内で動画情報を利用するMoReg方式を導入し,動作内容に基づいて計算割り当てを制御する。
論文 参考訳(メタデータ) (2024-11-04T18:59:44Z) - Video-Infinity: Distributed Long Video Generation [73.30145218077074]
拡散モデルは近年,映像生成において顕著な成果を上げている。
提案手法は,約5分で最大2,300フレームの映像を生成し,従来の手法の100倍の速度で長大な映像を生成する。
論文 参考訳(メタデータ) (2024-06-24T01:56:12Z) - AtomoVideo: High Fidelity Image-to-Video Generation [25.01443995920118]
AtomoVideo という画像合成のための高忠実度フレームワークを提案する。
多粒度画像インジェクションに基づいて、生成した映像の忠実度を所定の画像に高める。
我々のアーキテクチャは、ビデオフレーム予測タスクに柔軟に拡張し、反復生成による長いシーケンス予測を可能にする。
論文 参考訳(メタデータ) (2024-03-04T07:41:50Z) - Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video
Synthesis [69.83405335645305]
映像生成領域に画像モデルの進化をもたらすことによって、動きの忠実度、視覚的品質、スケーラビリティを損なうことが議論されている。
この作業では、これらの課題に体系的に対処するビデオファーストモデルであるSnap Videoを構築します。
画像生成の背後にあるワークホースであるU-Netは、ビデオ生成時に低スケールであり、計算オーバーヘッドがかなり必要であることを示す。
これにより、初めて数十億のパラメータを持つテキスト・ビデオモデルを効率的にトレーニングし、多数のベンチマークで最先端の結果に到達し、はるかに高い品質、時間的一貫性、動きの複雑さの動画を生成することができる。
論文 参考訳(メタデータ) (2024-02-22T18:55:08Z) - Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。
多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。
提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文 参考訳(メタデータ) (2023-04-15T06:17:30Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。