論文の概要: DeCo-VAE: Learning Compact Latents for Video Reconstruction via Decoupled Representation
- arxiv url: http://arxiv.org/abs/2511.14530v1
- Date: Tue, 18 Nov 2025 14:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.155188
- Title: DeCo-VAE: Learning Compact Latents for Video Reconstruction via Decoupled Representation
- Title(参考訳): DeCo-VAE:デカップリング表現によるビデオ再構成のためのコンパクトラテント学習
- Authors: Xiangchen Yin, Jiahui Yuan, Zhangchi Hu, Wenzhang Sun, Jie Chen, Xiaozhen Qiao, Hao Li, Xiaoyan Sun,
- Abstract要約: コンパクトな潜在表現を実現するために分離されたVAE(Co-VAE)を提案する。
分離されたコンポーネントごとに専用エンコーダを設計し、共有3Dデコーダを採用して再構築時の一貫性を維持する。
- 参考スコア(独自算出の注目度): 14.242798717551471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing video Variational Autoencoders (VAEs) generally overlook the similarity between frame contents, leading to redundant latent modeling. In this paper, we propose decoupled VAE (DeCo-VAE) to achieve compact latent representation. Instead of encoding RGB pixels directly, we decompose video content into distinct components via explicit decoupling: keyframe, motion and residual, and learn dedicated latent representation for each. To avoid cross-component interference, we design dedicated encoders for each decoupled component and adopt a shared 3D decoder to maintain spatiotemporal consistency during reconstruction. We further utilize a decoupled adaptation strategy that freezes partial encoders while training the others sequentially, ensuring stable training and accurate learning of both static and dynamic features. Extensive quantitative and qualitative experiments demonstrate that DeCo-VAE achieves superior video reconstruction performance.
- Abstract(参考訳): 既存のビデオ変分オートエンコーダ(VAE)は一般にフレーム内容の類似性を見落とし、冗長な潜在モデリングをもたらす。
本稿では,コンパクトな潜在表現を実現するために,分離されたVAE(DeCo-VAE)を提案する。
RGBピクセルを直接符号化する代わりに、ビデオコンテンツをキーフレーム、モーション、残差といった明示的な分離によって別個のコンポーネントに分解し、それぞれに専用の潜在表現を学習する。
クロスコンポーネント干渉を回避するため、分離された各コンポーネントに専用エンコーダを設計し、共有3Dデコーダを採用して、再構成時の時空間整合性を維持する。
さらに,部分的なエンコーダを連続的に凍結し,静的特徴と動的特徴の両方を確実に学習する,分離型適応戦略を活用している。
大規模な定量的および定性的実験により、DeCo-VAEはより優れたビデオ再構成性能が得られることを示した。
関連論文リスト
- Conditional Video Generation for High-Efficiency Video Compression [48.32125957038998]
本稿では,条件付き拡散モデルを利用した映像圧縮フレームワークを提案する。
具体的には、映像圧縮を条件生成タスクとして再構成し、生成モデルがスパース信号から映像を合成する。
論文 参考訳(メタデータ) (2025-07-21T06:16:27Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Improved Video VAE for Latent Video Diffusion Model [55.818110540710215]
ビデオオートエンコーダ(VAE)は、ピクセルデータを低次元の潜在空間に圧縮することを目的としており、OpenAIのSoraで重要な役割を果たしている。
既存のVAEのほとんどは、時間空間圧縮のために3次元因果構造に事前訓練された画像VAEを注入する。
ビデオVAE(IV-VAE)をさらに改善するための新しいKTCアーキテクチャとGCConvモジュールを提案する。
論文 参考訳(メタデータ) (2024-11-10T12:43:38Z) - Low-Light Video Enhancement via Spatial-Temporal Consistent Decomposition [52.89441679581216]
低照度ビデオエンハンスメント(LLVE)は、激しい視認性とノイズに悩まされる動的または静的なシーンの復元を目指している。
本稿では、ビューに依存しない、ビューに依存しないコンポーネントを組み込んだ革新的なビデオ分解戦略を提案する。
我々のフレームワークは、既存のメソッドを一貫して上回り、新しいSOTAパフォーマンスを確立します。
論文 参考訳(メタデータ) (2024-05-24T15:56:40Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。