論文の概要: REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder
- arxiv url: http://arxiv.org/abs/2503.08665v1
- Date: Tue, 11 Mar 2025 17:51:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:14.878182
- Title: REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder
- Title(参考訳): REGEN:(Re-)生成デコーダを用いたコンパクトなビデオ埋め込み学習
- Authors: Yitian Zhang, Long Mai, Aniruddha Mahapatra, David Bourgin, Yicong Hong, Jonah Casebeer, Feng Liu, Yun Fu,
- Abstract要約: 生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
- 参考スコア(独自算出の注目度): 52.698595889988766
- License:
- Abstract: We present a novel perspective on learning video embedders for generative modeling: rather than requiring an exact reproduction of an input video, an effective embedder should focus on synthesizing visually plausible reconstructions. This relaxed criterion enables substantial improvements in compression ratios without compromising the quality of downstream generative models. Specifically, we propose replacing the conventional encoder-decoder video embedder with an encoder-generator framework that employs a diffusion transformer (DiT) to synthesize missing details from a compact latent space. Therein, we develop a dedicated latent conditioning module to condition the DiT decoder on the encoded video latent embedding. Our experiments demonstrate that our approach enables superior encoding-decoding performance compared to state-of-the-art methods, particularly as the compression ratio increases. To demonstrate the efficacy of our approach, we report results from our video embedders achieving a temporal compression ratio of up to 32x (8x higher than leading video embedders) and validate the robustness of this ultra-compact latent space for text-to-video generation, providing a significant efficiency boost in latent diffusion model training and inference.
- Abstract(参考訳): 本稿では, 映像の正確な再生を必要とせず, 視覚的可視的再構成に焦点をあてて, 映像埋め込みを学習する新たな視点を提案する。
この緩和基準により、下流生成モデルの品質を損なうことなく圧縮比を大幅に改善することができる。
具体的には,従来のエンコーダ・デコーダ・ビデオ埋め込みを拡散トランスフォーマ(DiT)を用いたエンコーダ・ジェネレータ・フレームワークに置き換えて,コンパクトな潜伏空間から欠落した詳細を合成する。
そこで我々は,符号化ビデオの遅延埋め込みにDiTデコーダを条件付ける専用潜時条件モジュールを開発した。
提案手法は, 圧縮比が増大するにつれて, 最先端手法と比較して, 符号化・復号化性能が向上することが実証された。
提案手法の有効性を示すため,ビデオ埋め込み装置の時間圧縮比を最大32倍(先行映像埋め込み機より8倍高い)とし,この超コンパクト遅延空間の頑健性を検証し,遅延拡散モデルのトレーニングと推論において有意な効率向上をもたらすことを報告した。
関連論文リスト
- Progressive Growing of Video Tokenizers for Highly Compressed Latent Spaces [20.860632218272094]
ビデオトークン化器は遅延ビデオ拡散モデルに必須であり、生のビデオデータを遅延空間に変換して効率的なトレーニングを行う。
時間圧縮を強化するための代替手法を提案する。
本研究では, 高度圧縮ブロックを, 十分に訓練された低圧縮モデル上で段階的に訓練する, ブートストラップ付き高時間圧縮モデルを開発した。
論文 参考訳(メタデータ) (2025-01-09T18:55:15Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Learned Compression for Images and Point Clouds [1.7404865362620803]
この論文は、この新しい学習圧縮分野への3つの主要な貢献を提供する。
まず、符号化分布自体を側情報として圧縮送信することで、符号化分布を特定の入力に動的に適応する効率的な低複雑さエントロピーモデルを提案する。
第2に,非特殊化コーデックに比べて著しく低減された,分類に高度に特化している軽量低複雑点雲を提案する。
論文 参考訳(メタデータ) (2024-09-12T19:57:44Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Low-complexity Deep Video Compression with A Distributed Coding
Architecture [4.5885672744218]
一般的な予測符号化に基づくビデオ圧縮手法は、時間的冗長性を低減するために重エンコーダに依存している。
従来の分散コーディング手法は、予測的コーディングとはかなりのパフォーマンスギャップに悩まされている。
本稿では,レート歪み特性を改善するために,最初のエンドツーエンドの分散ビデオ圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-21T05:34:04Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Variable Rate Video Compression using a Hybrid Recurrent Convolutional
Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。
可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文 参考訳(メタデータ) (2020-04-08T20:49:25Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。