論文の概要: Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context
- arxiv url: http://arxiv.org/abs/2512.11293v1
- Date: Fri, 12 Dec 2025 05:40:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.665514
- Title: Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context
- Title(参考訳): 時間と空間を分離した自己回帰ビデオオートエンコーダ
- Authors: Cuifeng Shen, Lumin Xu, Xingguo Zhu, Gengdai Liu,
- Abstract要約: ビデオオートエンコーダは、ビデオをコンパクトな潜在表現に圧縮して効率的な再構成を行う。
自動回帰ビデオオートエンコーダ(ARVAE)を提案する。
ARVAEは、非常に軽量なモデルと小規模のトレーニングデータにより、優れた再構築品質を実現する。
- 参考スコア(独自算出の注目度): 8.458436768725212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video autoencoders compress videos into compact latent representations for efficient reconstruction, playing a vital role in enhancing the quality and efficiency of video generation. However, existing video autoencoders often entangle spatial and temporal information, limiting their ability to capture temporal consistency and leading to suboptimal performance. To address this, we propose Autoregressive Video Autoencoder (ARVAE), which compresses and reconstructs each frame conditioned on its predecessor in an autoregressive manner, allowing flexible processing of videos with arbitrary lengths. ARVAE introduces a temporal-spatial decoupled representation that combines downsampled flow field for temporal coherence with spatial relative compensation for newly emerged content, achieving high compression efficiency without information loss. Specifically, the encoder compresses the current and previous frames into the temporal motion and spatial supplement, while the decoder reconstructs the original frame from the latent representations given the preceding frame. A multi-stage training strategy is employed to progressively optimize the model. Extensive experiments demonstrate that ARVAE achieves superior reconstruction quality with extremely lightweight models and small-scale training data. Moreover, evaluations on video generation tasks highlight its strong potential for downstream applications.
- Abstract(参考訳): ビデオオートエンコーダは、ビデオをコンパクトな潜在表現に圧縮して効率的な再構成を行い、ビデオ生成の品質と効率を高める上で重要な役割を果たす。
しかし、既存のビデオオートエンコーダはしばしば空間的および時間的情報を絡み合わせ、時間的一貫性を捉える能力に制限を与え、最適なパフォーマンスをもたらす。
そこで本研究では,自己回帰型ビデオオートエンコーダ (ARVAE) を提案する。
ARVAEは、時間的コヒーレンスのためのサンプルフローフィールドと、新たに出現したコンテンツに対する空間的相対的補償を組み合わせた時間的空間的疎結合表現を導入し、情報損失を伴わずに高い圧縮効率を実現する。
具体的には、エンコーダは、現在のフレームと前のフレームを時間的動きと空間的サプリメントに圧縮し、デコーダは、前フレームが与えられた潜在表現から原フレームを再構成する。
モデルを段階的に最適化するために、多段階のトレーニング戦略が採用されている。
ARVAEは、非常に軽量なモデルと小規模のトレーニングデータを用いて、より優れた再構築品質を達成することを実証した。
さらに、映像生成タスクの評価は、下流アプリケーションに対する強力な可能性を強調している。
関連論文リスト
- VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - Hi-VAE: Efficient Video Autoencoding with Global and Detailed Motion [23.80254637449824]
Hi-VAEは、ビデオダイナミクスの粗大な動き表現を符号化する効率的なビデオ自動符号化フレームワークを定式化している。
我々は,Hi-VAEの圧縮係数が1428$times$,30$times$がベースライン法よりも高いことを示す。
論文 参考訳(メタデータ) (2025-06-08T13:30:11Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。