論文の概要: SemanticGen: Video Generation in Semantic Space
- arxiv url: http://arxiv.org/abs/2512.20619v2
- Date: Wed, 24 Dec 2025 11:39:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 13:34:31.965869
- Title: SemanticGen: Video Generation in Semantic Space
- Title(参考訳): SemanticGen:セマンティック空間におけるビデオ生成
- Authors: Jianhong Bai, Xiaoshi Wu, Xintao Wang, Xiao Fu, Yuanxing Zhang, Qinghe Wang, Xiaoyu Shi, Menghan Xia, Zuozhu Liu, Haoji Hu, Pengfei Wan, Kun Gai,
- Abstract要約: 最先端のビデオ生成モデルは、通常、VAE空間内のビデオ潜像の分布を学習し、VAEデコーダを使用してピクセルにマッピングする。
我々はセマンティックGenを紹介した。セマンティックGenはセマンティックな空間でビデオを生成する新しいソリューションだ。
提案手法は,長大なビデオ生成に拡張した場合にも有効であり,計算的にも効率的である。
- 参考スコア(独自算出の注目度): 60.49729308406981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: State-of-the-art video generative models typically learn the distribution of video latents in the VAE space and map them to pixels using a VAE decoder. While this approach can generate high-quality videos, it suffers from slow convergence and is computationally expensive when generating long videos. In this paper, we introduce SemanticGen, a novel solution to address these limitations by generating videos in the semantic space. Our main insight is that, due to the inherent redundancy in videos, the generation process should begin in a compact, high-level semantic space for global planning, followed by the addition of high-frequency details, rather than directly modeling a vast set of low-level video tokens using bi-directional attention. SemanticGen adopts a two-stage generation process. In the first stage, a diffusion model generates compact semantic video features, which define the global layout of the video. In the second stage, another diffusion model generates VAE latents conditioned on these semantic features to produce the final output. We observe that generation in the semantic space leads to faster convergence compared to the VAE latent space. Our method is also effective and computationally efficient when extended to long video generation. Extensive experiments demonstrate that SemanticGen produces high-quality videos and outperforms state-of-the-art approaches and strong baselines.
- Abstract(参考訳): 最先端のビデオ生成モデルは、通常、VAE空間内のビデオ潜像の分布を学習し、VAEデコーダを使用してピクセルにマッピングする。
このアプローチは高品質なビデオを生成することができるが、収束が遅く、長いビデオを生成する際に計算コストがかかる。
本稿では,セマンティックジェン(SemanticGen)を紹介する。セマンティックジェン(SemanticGen)は,セマンティック空間でビデオを生成することによって,これらの制約に対処する新しいソリューションである。
我々の主な洞察は、ビデオに固有の冗長性のため、生成プロセスは、双方向の注意を用いた大量の低レベルビデオトークンを直接モデル化するのではなく、グローバルプランニングのためのコンパクトでハイレベルなセマンティックスペースで開始されるべきである。
SemanticGenは2段階生成プロセスを採用している。
最初の段階では、拡散モデルは、ビデオのグローバルなレイアウトを定義するコンパクトなセマンティックビデオ特徴を生成する。
第2段階では、別の拡散モデルがこれらの意味的特徴に条件づけられたVAEラテントを生成し、最終的な出力を生成する。
意味空間における生成は、VOE潜在空間よりも早く収束する。
提案手法は,長大なビデオ生成に拡張した場合にも有効であり,計算的にも効率的である。
大規模な実験により、SemanticGenは高品質なビデオを生成し、最先端のアプローチと強力なベースラインを上回っている。
関連論文リスト
- Uniform Discrete Diffusion with Metric Path for Video Generation [103.86033350602908]
連続空間ビデオ生成は急速に進歩し、離散的なアプローチはエラーの蓄積と長時間の矛盾により遅れている。
我々は、拡張性のあるビデオ生成のための連続的なアプローチでギャップを埋める強力なフレームワークであるUniform Generative ModelingとUniform pAth(URSA)を提案する。
URSAは既存の離散的手法を一貫して上回り、最先端の連続拡散法に匹敵する性能を達成する。
論文 参考訳(メタデータ) (2025-10-28T17:59:57Z) - StoryDiffusion: Consistent Self-Attention for Long-Range Image and Video Generation [117.13475564834458]
本稿では,一貫性自己注意という新たな自己注意計算手法を提案する。
提案手法を長距離ビデオ生成に拡張するために,新しい意味空間時間運動予測モジュールを導入する。
これら2つの新しいコンポーネントを統合することで、StoryDiffusionと呼ばれるフレームワークは、一貫した画像やビデオでテキストベースのストーリーを記述することができます。
論文 参考訳(メタデータ) (2024-05-02T16:25:16Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Video Diffusion Models [47.99413440461512]
時間的コヒーレントな高忠実度ビデオの生成は、生成モデリング研究において重要なマイルストーンである。
本稿では,ビデオ生成のための拡散モデルを提案する。
そこで本研究では,テキスト条件付きビデオ生成タスクにおける最初の結果と,未条件のビデオ生成ベンチマークにおける最新結果について述べる。
論文 参考訳(メタデータ) (2022-04-07T14:08:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。