論文の概要: VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption
- arxiv url: http://arxiv.org/abs/2505.12053v1
- Date: Sat, 17 May 2025 15:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.011539
- Title: VFRTok: Variable Frame Rates Video Tokenizer with Duration-Proportional Information Assumption
- Title(参考訳): VFRTok: 時間的情報量を考慮した可変フレームレートビデオトケナイザ
- Authors: Tianxiong Zhong, Xingye Tian, Boyuan Jiang, Xuebo Wang, Xin Tao, Pengfei Wan, Zhiwei Zhang,
- Abstract要約: 既存のトークン化器は固定時間圧縮率を提供し、拡散モデルの計算コストはフレームレートと線形にスケールする。
本稿では、可変フレームレート符号化と復号を可能にするトランスフォーマーベースのビデオトークンであるVFRTokを紹介する。
VFRTokは既存のトークンよりも1/8トークンしか使用せず、競争力のある再構築品質と最先端のビデオ忠実性を実現している。
- 参考スコア(独自算出の注目度): 19.263984982252396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern video generation frameworks based on Latent Diffusion Models suffer from inefficiencies in tokenization due to the Frame-Proportional Information Assumption. Existing tokenizers provide fixed temporal compression rates, causing the computational cost of the diffusion model to scale linearly with the frame rate. The paper proposes the Duration-Proportional Information Assumption: the upper bound on the information capacity of a video is proportional to the duration rather than the number of frames. Based on this insight, the paper introduces VFRTok, a Transformer-based video tokenizer, that enables variable frame rate encoding and decoding through asymmetric frame rate training between the encoder and decoder. Furthermore, the paper proposes Partial Rotary Position Embeddings (RoPE) to decouple position and content modeling, which groups correlated patches into unified tokens. The Partial RoPE effectively improves content-awareness, enhancing the video generation capability. Benefiting from the compact and continuous spatio-temporal representation, VFRTok achieves competitive reconstruction quality and state-of-the-art generation fidelity while using only 1/8 tokens compared to existing tokenizers.
- Abstract(参考訳): 遅延拡散モデルに基づく現代的なビデオ生成フレームワークは、フレーム比情報推定によるトークン化の非効率性に悩まされる。
既存のトークン化器は固定時間圧縮率を提供し、拡散モデルの計算コストはフレームレートと線形にスケールする。
本稿では,映像情報量に対する上限は,フレーム数よりも時間に比例する。
この知見に基づき、トランスフォーマーベースのビデオトークンであるVFRTokを導入し、エンコーダとデコーダ間の非対称フレームレートトレーニングにより、可変フレームレートの符号化と復号を可能にする。
さらに,部分回転位置埋め込み(RoPE)を用いて位置とコンテンツモデリングを分離し,パッチを統一トークンにグループ化する手法を提案する。
部分RoPEは、コンテンツ認識性を効果的に改善し、映像生成能力を向上する。
コンパクトかつ連続的な時空間表現から得られるVFRTokは、既存のトークンよりも1/8トークンしか使用せず、競合する再構成品質と最先端の生成忠実性を達成する。
関連論文リスト
- VGDFR: Diffusion-based Video Generation with Dynamic Latent Frame Rate [16.826081397057774]
VGDFRは動的遅延フレームレートを持つ拡散型ビデオ生成のためのトレーニング不要のアプローチである。
VGDFRは、画質の劣化を最小限に抑えながら、ビデオ生成において最大3倍の高速化を実現することができることを示す。
論文 参考訳(メタデータ) (2025-04-16T17:09:13Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - DLFR-VAE: Dynamic Latent Frame Rate VAE for Video Generation [16.216254819711327]
本研究では,動的遅延フレームレートVAE(DLFR-VAE)を提案する。
我々のシンプルだが効果的なDLFR-VAEはプラグイン・アンド・プレイモジュールとして機能し、既存のビデオ生成モデルとシームレスに統合できる。
論文 参考訳(メタデータ) (2025-02-17T15:22:31Z) - Ouroboros-Diffusion: Exploring Consistent Content Generation in Tuning-free Long Video Diffusion [116.40704026922671]
事前訓練されたテキスト・ツー・ビデオモデルに基づいて構築されたファースト・イン・ファースト・アウト(FIFO)ビデオ拡散は,近年,チューニング不要な長ビデオ生成に有効なアプローチとして浮上している。
We propose Ouroboros-Diffusion, a novel video denoising framework designed to enhance structure and content (ject) consistency。
論文 参考訳(メタデータ) (2025-01-15T18:59:15Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Boosting Neural Representations for Videos with a Conditional Decoder [28.073607937396552]
Inlicit Neural representations (INRs) は、ビデオストレージと処理において有望なアプローチとして登場した。
本稿では,現在の暗黙的ビデオ表現手法のための普遍的なブースティングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-28T08:32:19Z) - Flow-Guided Sparse Transformer for Video Deblurring [124.11022871999423]
FlowGuided Sparse Transformer (F GST) はビデオデブリのためのフレームワークである。
FGSW-MSAは、推定光流のガイダンスを楽しみ、隣り合うフレームの同じシーンパッチに対応する、空間的にスパースな要素を世界中にサンプリングする。
提案するFGSTは,DVDおよびGOPROデータセットの最先端パッチよりも優れており,実際のビデオの劣化に対して,より視覚的に満足な結果が得られる。
論文 参考訳(メタデータ) (2022-01-06T02:05:32Z) - End-to-End Learning for Video Frame Compression with Self-Attention [25.23586503813838]
ビデオフレームを圧縮するエンド・ツー・エンドの学習システムを提案する。
我々のシステムはフレームの深い埋め込みを学習し、その差分を潜時空間でエンコードする。
実験の結果,提案システムは高い圧縮率と高客観的な視覚的品質を実現することがわかった。
論文 参考訳(メタデータ) (2020-04-20T12:11:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。