論文の概要: Adaptive 1D Video Diffusion Autoencoder
- arxiv url: http://arxiv.org/abs/2602.04220v1
- Date: Wed, 04 Feb 2026 05:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.380326
- Title: Adaptive 1D Video Diffusion Autoencoder
- Title(参考訳): 適応型1次元ビデオ拡散オートエンコーダ
- Authors: Yao Teng, Minxuan Lin, Xian Liu, Shuai Wang, Xiao Yang, Xihui Liu,
- Abstract要約: 適応型1次元符号化と拡散型デコードのためのトランスフォーマベースのフレームワークである1次元拡散ビデオ自動符号化(One-DVA)を提案する。
1-DVAは3D-CNN VAEと同等の性能を同じ圧縮比で再現する。
さらに、生成過程によって生じる人工物を軽減するために、生成モデルのためのOne-DVA潜伏分布を規則化し、デコーダを微調整する。
- 参考スコア(独自算出の注目度): 44.70149252636057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video generation models largely rely on video autoencoders that compress pixel-space videos into latent representations. However, existing video autoencoders suffer from three major limitations: (1) fixed-rate compression that wastes tokens on simple videos, (2) inflexible CNN architectures that prevent variable-length latent modeling, and (3) deterministic decoders that struggle to recover appropriate details from compressed latents. To address these issues, we propose One-Dimensional Diffusion Video Autoencoder (One-DVA), a transformer-based framework for adaptive 1D encoding and diffusion-based decoding. The encoder employs query-based vision transformers to extract spatiotemporal features and produce latent representations, while a variable-length dropout mechanism dynamically adjusts the latent length. The decoder is a pixel-space diffusion transformer that reconstructs videos with the latents as input conditions. With a two-stage training strategy, One-DVA achieves performance comparable to 3D-CNN VAEs on reconstruction metrics at identical compression ratios. More importantly, it supports adaptive compression and thus can achieve higher compression ratios. To better support downstream latent generation, we further regularize the One-DVA latent distribution for generative modeling and fine-tune its decoder to mitigate artifacts caused by the generation process.
- Abstract(参考訳): 最近のビデオ生成モデルは、主にピクセル空間のビデオを潜在表現に圧縮するビデオオートエンコーダに依存している。
しかし,既存のビデオオートエンコーダには,(1)単純なビデオにトークンを浪費する固定レート圧縮,(2)可変長ラテントモデリングを阻止する非フレキシブルCNNアーキテクチャ,(3)圧縮されたラテントから適切な詳細を回復するのに苦労する決定論的デコーダの3つの大きな制限がある。
これらの問題に対処するために,適応型1次元符号化と拡散型デコードのためのトランスフォーマベースのフレームワークである1次元拡散ビデオ自動符号化(One-DVA)を提案する。
エンコーダは、クエリベースの視覚変換器を用いて時空間の特徴を抽出し、潜時表現を生成する。
デコーダ(英: decoder)は、映像を入力条件として再生する画素空間拡散変換器である。
2段階のトレーニング戦略により、One-DVAは3D-CNN VAEと同等の性能を同じ圧縮比で再現する。
さらに重要なことに、適応圧縮をサポートし、より高い圧縮比を達成することができる。
下流遅延生成を支援するために、生成モデルのためのOne-DVA潜時分布を規則化し、デコーダを微調整し、生成プロセスによるアーティファクトを緩和する。
関連論文リスト
- Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context [8.458436768725212]
ビデオオートエンコーダは、ビデオをコンパクトな潜在表現に圧縮して効率的な再構成を行う。
自動回帰ビデオオートエンコーダ(ARVAE)を提案する。
ARVAEは、非常に軽量なモデルと小規模のトレーニングデータにより、優れた再構築品質を実現する。
論文 参考訳(メタデータ) (2025-12-12T05:40:01Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - End-to-End Learnable Multi-Scale Feature Compression for VCM [8.037759667748768]
抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
論文 参考訳(メタデータ) (2023-06-29T04:05:13Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。