論文の概要: DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation
- arxiv url: http://arxiv.org/abs/2502.11897v1
- Date: Mon, 17 Feb 2025 15:22:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:07.232960
- Title: DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation
- Title(参考訳): DLFR-VAE:ビデオ生成のための動的遅延フレームレートVAE
- Authors: Zhihang Yuan, Siyuan Wang, Rui Xie, Hanling Zhang, Tongcheng Fang, Yuzhang Shang, Shengen Yan, Guohao Dai, Yu Wang,
- Abstract要約: 本研究では,動的遅延フレームレートVAE(DLFR-VAE)を提案する。
我々のシンプルだが効果的なDLFR-VAEはプラグイン・アンド・プレイモジュールとして機能し、既存のビデオ生成モデルとシームレスに統合できる。
- 参考スコア(独自算出の注目度): 16.216254819711327
- License:
- Abstract: In this paper, we propose the Dynamic Latent Frame Rate VAE (DLFR-VAE), a training-free paradigm that can make use of adaptive temporal compression in latent space. While existing video generative models apply fixed compression rates via pretrained VAE, we observe that real-world video content exhibits substantial temporal non-uniformity, with high-motion segments containing more information than static scenes. Based on this insight, DLFR-VAE dynamically adjusts the latent frame rate according to the content complexity. Specifically, DLFR-VAE comprises two core innovations: (1) A Dynamic Latent Frame Rate Scheduler that partitions videos into temporal chunks and adaptively determines optimal frame rates based on information-theoretic content complexity, and (2) A training-free adaptation mechanism that transforms pretrained VAE architectures into a dynamic VAE that can process features with variable frame rates. Our simple but effective DLFR-VAE can function as a plug-and-play module, seamlessly integrating with existing video generation models and accelerating the video generation process.
- Abstract(参考訳): 本稿では,動的ラテントフレームレートVAE(DLFR-VAE)を提案する。
既存のビデオ生成モデルは、事前訓練されたVAEを介して一定の圧縮速度を適用するが、実世界のビデオコンテンツは、静的なシーンよりも多くの情報を含む、時間的非一様性を示す。
この知見に基づき、DLFR-VAEはコンテンツ複雑さに応じて潜在フレームレートを動的に調整する。
具体的には,(1)映像を時間的チャンクに分割し,情報理論的内容の複雑さに基づいて最適なフレームレートを適応的に決定する動的潜在フレームレートスケジューリングと,(2)事前学習されたVAEアーキテクチャを動的VAEに変換し,可変フレームレートで特徴を処理できる学習自由適応機構である。
我々のシンプルだが効果的なDLFR-VAEは、プラグイン・アンド・プレイモジュールとして機能し、既存のビデオ生成モデルとシームレスに統合され、ビデオ生成プロセスが高速化される。
関連論文リスト
- Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - CANeRV: Content Adaptive Neural Representation for Video Compression [89.35616046528624]
映像圧縮のためのコンテンツ適応型ニューラル表現法(CANeRV)を提案する。
CANeRVは革新的なINRベースのビデオ圧縮ネットワークであり、各ビデオシーケンスの特定の内容に基づいて、構造最適化を適応的に行う。
CNeRVはH.266/VVCと最先端のINRベースの動画圧縮技術の両方を多種多様なビデオデータセットで上回り得ることを示す。
論文 参考訳(メタデータ) (2025-02-10T06:21:16Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - CV-VAE: A Compatible Video VAE for Latent Generative Video Models [45.702473834294146]
可変エンコーダ(VAE)は、OpenAIのビデオの自動時間圧縮において重要な役割を果たす。
現在、潜伏拡散に基づくビデオモデルによく使われる連続ビデオ(3D)VAEが欠けている。
本稿では,静止空間が与えられた画像VAEと互換性のある映像モデル,CV-VAEの映像VAEをトレーニングする方法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:33:10Z) - RAP: Efficient Text-Video Retrieval with Sparse-and-Correlated Adapter [77.0205013713008]
Text-Video Retrieval (TVR)は、関連するビデオコンテンツと自然言語クエリを連携させることを目的としている。
現在までに、ほとんどの最先端のTVR手法は、大規模な事前学習された視覚モデルに基づいて、画像からビデオへの変換学習を学習している。
パラメータ化層数で事前学習モデルの微調整を行うためのスパース・アンド・コラージュAdaPter (RAP) を提案する。
論文 参考訳(メタデータ) (2024-05-29T19:23:53Z) - LADDER: An Efficient Framework for Video Frame Interpolation [12.039193291203492]
ビデオフレーム補間(VFI)は、スローモーション生成、フレームレート変換、ビデオフレーム復元など、様々な応用において重要な技術である。
本稿では,効率と品質のバランスをとることを目的とした,効率的なビデオフレームフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-17T06:47:17Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。