論文の概要: Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models
- arxiv url: http://arxiv.org/abs/2509.19222v1
- Date: Tue, 23 Sep 2025 16:47:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.955534
- Title: Video Killed the Energy Budget: Characterizing the Latency and Power Regimes of Open Text-to-Video Models
- Title(参考訳): 動画が省エネ予算を解消:オープンテキスト・ビデオモデルのレイテンシとパワーレジームを特徴付ける
- Authors: Julien Delavande, Regis Pierrard, Sasha Luccioni,
- Abstract要約: 本稿では,最先端T2Vモデルのレイテンシとエネルギー消費に関する系統的研究を行う。
まず,空間分解能,時間長,分極ステップのスケーリング法則を予測する計算バウンド解析モデルを構築した。
次に、これらの予測をWAN2.1-T2Vの詳細な実験により検証し、空間的および時間的次元の2次成長とデノナイジングステップの数による線形スケーリングを示す。
- 参考スコア(独自算出の注目度): 4.513690948889834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-video (T2V) generation have enabled the creation of high-fidelity, temporally coherent clips from natural language prompts. Yet these systems come with significant computational costs, and their energy demands remain poorly understood. In this paper, we present a systematic study of the latency and energy consumption of state-of-the-art open-source T2V models. We first develop a compute-bound analytical model that predicts scaling laws with respect to spatial resolution, temporal length, and denoising steps. We then validate these predictions through fine-grained experiments on WAN2.1-T2V, showing quadratic growth with spatial and temporal dimensions, and linear scaling with the number of denoising steps. Finally, we extend our analysis to six diverse T2V models, comparing their runtime and energy profiles under default settings. Our results provide both a benchmark reference and practical insights for designing and deploying more sustainable generative video systems.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成の最近の進歩により、自然言語のプロンプトから高忠実で時間的にコヒーレントなクリップを作成できるようになった。
しかし、これらのシステムにはかなりの計算コストが伴い、そのエネルギー需要はいまだに理解されていない。
本稿では,最先端のオープンソースT2Vモデルのレイテンシとエネルギー消費に関する系統的研究を行う。
まず,空間分解能,時間長,分極ステップのスケーリング法則を予測する計算バウンド解析モデルを構築した。
次に、これらの予測をWAN2.1-T2Vの詳細な実験により検証し、空間的および時間的次元の2次成長とデノナイジングステップの数による線形スケーリングを示す。
最後に、分析を6つの多様なT2Vモデルに拡張し、デフォルト設定下でのランタイムとエネルギプロファイルを比較します。
本結果は,より持続可能な生成ビデオシステムの設計と展開のためのベンチマーク基準と実用的な知見を提供する。
関連論文リスト
- Retrieval, Refinement, and Ranking for Text-to-Video Generation via Prompt Optimization and Test-Time Scaling [1.6671050178877669]
大規模なデータセットは、Text-to-Video(T2V)生成モデルに大きな進歩をもたらした。
ビデオ出力を改善する現在の方法は、しばしば不足する。
RAGベースの新しいプロンプト最適化フレームワークである3Rを導入する。
論文 参考訳(メタデータ) (2026-03-02T06:35:59Z) - VideoVerse: How Far is Your T2V Generator from a World Model? [25.155601280571577]
VideoVerseは、T2Vモデルが現実世界の複雑な時間的因果関係と世界的知識を理解できるかどうかを評価するベンチマークである。
VideoVerseは、815のイベントと733のバイナリ評価質問を含む300の慎重にキュレートされたプロンプトで構成されている。
我々は、VideoVerse上で、最先端のオープンソースおよびクローズドソースT2Vモデルの体系的評価を行う。
論文 参考訳(メタデータ) (2025-10-09T16:18:20Z) - Bridging Text and Video Generation: A Survey [0.41998444721319217]
テキスト・トゥ・ビデオ技術は、教育、マーケティング、エンターテイメント、視覚的または読書的困難を抱える個人のための補助技術などの領域を変革する可能性がある。
本稿では,テキストからビデオへの生成モデルに関する包括的調査を行い,初期のGANやVAEからハイブリッド拡散変換器(DiT)アーキテクチャへの展開を追究する。
調査したテキスト・ビデオ・モデルをトレーニングし,評価したデータセットのシステマティックな説明を行い,そのようなモデルのアクセシビリティを支援し,評価する。
論文 参考訳(メタデータ) (2025-10-06T16:39:05Z) - FlashVideo: Flowing Fidelity to Detail for Efficient High-Resolution Video Generation [61.61415607972597]
DiT拡散モデルは、モデルキャパシティとデータスケールのスケーラビリティを活用して、テキスト・ビデオ生成において大きな成功を収めた。
しかし、テキストプロンプトに一致した高い内容と動きの忠実度は、しばしば大きなモデルパラメータとかなりの数の関数評価(NFE)を必要とする。
本稿では,モデルキャパシティとNFEを戦略的に割り当て,生成精度と品質のバランスをとる新しい2つのステージフレームワークであるFlashVideoを提案する。
論文 参考訳(メタデータ) (2025-02-07T18:59:59Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations [120.52120919834988]
xGen-SynVideo-1(xGen-SynVideo-1)は、テキスト記述からリアルなシーンを生成することができるテキスト・ツー・ビデオ(T2V)生成モデルである。
VidVAEはビデオデータを空間的にも時間的にも圧縮し、視覚トークンの長さを大幅に削減する。
DiTモデルは、空間的および時間的自己アテンション層を取り入れ、異なる時間枠とアスペクト比をまたいだ堅牢な一般化を可能にする。
論文 参考訳(メタデータ) (2024-08-22T17:55:22Z) - VSTAR: Generative Temporal Nursing for Longer Dynamic Video Synthesis [18.806249040835624]
本稿では,時間的ダイナミクスの制御を改善するために,時間的時間的看護(GTN, Generative Temporal Nursing, GTN)の概念を導入する。
提案手法が既存のオープンソースT2Vモデルよりも長めで視覚的に魅力的なビデオを生成する場合の優位性を実験的に示す。
論文 参考訳(メタデータ) (2024-03-20T10:58:58Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。