論文の概要: Rethinking Video Tokenization: A Conditioned Diffusion-based Approach
- arxiv url: http://arxiv.org/abs/2503.03708v3
- Date: Thu, 27 Mar 2025 11:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:03.263104
- Title: Rethinking Video Tokenization: A Conditioned Diffusion-based Approach
- Title(参考訳): ビデオトークン化の再考:条件付き拡散に基づくアプローチ
- Authors: Nianzu Yang, Pandeng Li, Liming Zhao, Yang Li, Chen-Wei Xie, Yehui Tang, Xudong Lu, Zhihang Liu, Yun Zheng, Yu Liu, Junchi Yan,
- Abstract要約: 新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
- 参考スコア(独自算出の注目度): 58.164354605550194
- License:
- Abstract: Existing video tokenizers typically use the traditional Variational Autoencoder (VAE) architecture for video compression and reconstruction. However, to achieve good performance, its training process often relies on complex multi-stage training tricks that go beyond basic reconstruction loss and KL regularization. Among these tricks, the most challenging is the precise tuning of adversarial training with additional Generative Adversarial Networks (GANs) in the final stage, which can hinder stable convergence. In contrast to GANs, diffusion models offer more stable training processes and can generate higher-quality results. Inspired by these advantages, we propose CDT, a novel Conditioned Diffusion-based video Tokenizer, that replaces the GAN-based decoder with a conditional causal diffusion model. The encoder compresses spatio-temporal information into compact latents, while the decoder reconstructs videos through a reverse diffusion process conditioned on these latents. During inference, we incorporate a feature cache mechanism to generate videos of arbitrary length while maintaining temporal continuity and adopt sampling acceleration technique to enhance efficiency. Trained using only a basic MSE diffusion loss for reconstruction, along with KL term and LPIPS perceptual loss from scratch, extensive experiments demonstrate that CDT achieves state-of-the-art performance in video reconstruction tasks with just a single-step sampling. Even a scaled-down version of CDT (3$\times$ inference speedup) still performs comparably with top baselines. Moreover, the latent video generation model trained with CDT also exhibits superior performance. The source code and pretrained weights are available at https://github.com/ali-vilab/CDT.
- Abstract(参考訳): 既存のビデオトークンライザは、ビデオ圧縮と再構成に従来の変分オートエンコーダ(VAE)アーキテクチャを使用するのが一般的である。
しかし、優れた性能を達成するために、そのトレーニングプロセスは、基本的な再構築損失とKL正規化を超えた複雑な多段階トレーニングトリックに依存していることが多い。
これらのトリックの中で最も難しいのは、最終段階にGAN(Generative Adversarial Networks)を追加して敵のトレーニングを正確に調整することであり、安定した収束を妨げる。
GANとは対照的に、拡散モデルはより安定したトレーニングプロセスを提供し、高品質な結果を生み出すことができる。
これらの利点に触発されて、我々は、GANベースのデコーダを条件付き因果拡散モデルに置き換える、新しい条件付き拡散型ビデオトケナイザCDTを提案する。
エンコーダは時空間情報をコンパクトな潜伏子に圧縮し、デコーダはこれらの潜伏子に条件付けられた逆拡散過程を通じて映像を再構成する。
推論中に、時間的連続性を保ちながら任意の長さのビデオを生成する機能キャッシュ機構を導入し、サンプリングアクセラレーション技術を用いて効率を向上させる。
簡単なMSE拡散損失とKL項とLPIPSのスクラッチからの知覚損失を併用した訓練により、CDTは1ステップのサンプリングだけで、ビデオ再構成タスクにおける最先端のパフォーマンスを達成できることを示した。
CDTのスケールダウンバージョン(3$\times$推論スピードアップ)でさえ、トップベースラインと互換性がある。
さらに、CDTでトレーニングされた潜時ビデオ生成モデルは、優れた性能を示す。
ソースコードと事前訓練されたウェイトは、https://github.com/ali-vilab/CDT.comで入手できる。
関連論文リスト
- Video-Panda: Parameter-efficient Alignment for Encoder-free Video-Language Models [26.866184981409607]
現在のビデオモデルは、通常、重い画像エンコーダ(300M-1.1Bパラメータ)またはビデオエンコーダ(1B-1.4Bパラメータ)に依存している。
本稿では,ビデオ入力を直接処理する時空間アライメントブロック(STAB)を提案する。
本モデルでは,標準ベンチマークによるオープンエンドビデオ質問応答に対して,エンコーダに基づくアプローチに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:59:56Z) - Divot: Diffusion Powers Video Tokenizer for Comprehension and Generation [54.21476271127356]
Divotは拡散駆動型ビデオトケナイザである。
我々は、ビデオからテキストへの自己回帰とテキストからビデオへの生成を通じてDivot-unaVicを提示する。
論文 参考訳(メタデータ) (2024-12-05T18:53:04Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation [92.55296042611886]
リユースとディフューズ”と呼ばれるフレームワークを$textitVidRD$と名づけて提案する。
また、既存の複数のデータセットからの多様なコンテンツを含むビデオテキストデータを構成するための一連の戦略を提案する。
論文 参考訳(メタデータ) (2023-09-07T08:12:58Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。