論文の概要: Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2509.19222v1
- Date: Tue, 23 Sep 2025 16:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.955534
- Title: Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models
- Title(参考訳): 動画が省エネ予算を解消:オープンテキスト・ビデオモデルのレイテンシとパワーレジームを特徴付ける
- Authors: Julien Delavande, Regis Pierrard, Sasha Luccioni,
- Abstract要約: 本稿では,最先端T2Vモデルのレイテンシとエネルギー消費に関する系統的研究を行う。
まず,空間分解能,時間長,分極ステップのスケーリング法則を予測する計算バウンド解析モデルを構築した。
次に、これらの予測をWAN2.1-T2Vの詳細な実験により検証し、空間的および時間的次元の2次成長とデノナイジングステップの数による線形スケーリングを示す。
- 参考スコア(独自算出の注目度): 4.513690948889834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-video (T2V) generation have enabled the creation of high-fidelity, temporally coherent clips from natural language prompts. Yet these systems come with significant computational costs, and their energy demands remain poorly understood. In this paper, we present a systematic study of the latency and energy consumption of state-of-the-art open-source T2V models. We first develop a compute-bound analytical model that predicts scaling laws with respect to spatial resolution, temporal length, and denoising steps. We then validate these predictions through fine-grained experiments on WAN2.1-T2V, showing quadratic growth with spatial and temporal dimensions, and linear scaling with the number of denoising steps. Finally, we extend our analysis to six diverse T2V models, comparing their runtime and energy profiles under default settings. Our results provide both a benchmark reference and practical insights for designing and deploying more sustainable generative video systems.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成の最近の進歩により、自然言語のプロンプトから高忠実で時間的にコヒーレントなクリップを作成できるようになった。
しかし、これらのシステムにはかなりの計算コストが伴い、そのエネルギー需要はいまだに理解されていない。
本稿では,最先端のオープンソースT2Vモデルのレイテンシとエネルギー消費に関する系統的研究を行う。
まず,空間分解能,時間長,分極ステップのスケーリング法則を予測する計算バウンド解析モデルを構築した。
次に、これらの予測をWAN2.1-T2Vの詳細な実験により検証し、空間的および時間的次元の2次成長とデノナイジングステップの数による線形スケーリングを示す。
最後に、分析を6つの多様なT2Vモデルに拡張し、デフォルト設定下でのランタイムとエネルギプロファイルを比較します。
本結果は,より持続可能な生成ビデオシステムの設計と展開のためのベンチマーク基準と実用的な知見を提供する。
関連論文リスト
- FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [61.61415607972597]
DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:59:59Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。