論文の概要: Efficient Video Diffusion with Sparse Information Transmission for Video Compression
- arxiv url: http://arxiv.org/abs/2603.18501v1
- Date: Thu, 19 Mar 2026 05:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.966687
- Title: Efficient Video Diffusion with Sparse Information Transmission for Video Compression
- Title(参考訳): 映像圧縮のためのスパース情報伝送による効率的な映像拡散
- Authors: Mingde Zhou, Zheng Chen, Yulun Zhang,
- Abstract要約: ビデオ圧縮は、最小限の歪みで復元品質を最大化することを目的としている。
超低速では、従来のエンドツーエンド圧縮モデルは、画質の悪いぼやけた画像を生成する傾向がある。
我々はDiff-SITを提案し、知覚的品質と時間的一貫性の新たな最先端性を確立する。
- 参考スコア(独自算出の注目度): 24.272279529510772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video compression aims to maximize reconstruction quality with minimal bitrates. Beyond standard distortion metrics, perceptual quality and temporal consistency are also critical. However, at ultra-low bitrates, traditional end-to-end compression models tend to produce blurry images of poor perceptual quality. Besides, existing generative compression methods often treat video frames independently and show limitations in time coherence and efficiency. To address these challenges, we propose the Efficient Video Diffusion with Sparse Information Transmission (Diff-SIT), which comprises the Sparse Temporal Encoding Module (STEM) and the One-Step Video Diffusion with Frame Type Embedder (ODFTE). The STEM sparsely encodes the original frame sequence into an information-rich intermediate sequence, achieving significant bitrate savings. Subsequently, the ODFTE processes this intermediate sequence as a whole, which exploits the temporal correlation. During this process, our proposed Frame Type Embedder (FTE) guides the diffusion model to perform adaptive reconstruction according to different frame types to optimize the overall quality. Extensive experiments on multiple datasets demonstrate that Diff-SIT establishes a new state-of-the-art in perceptual quality and temporal consistency, particularly in the challenging ultra-low-bitrate regime. Code is released at https://github.com/MingdeZhou/Diff-SIT.
- Abstract(参考訳): ビデオ圧縮は、最小ビットレートで再現品質を最大化することを目的としている。
標準的な歪み指標以外にも、知覚的品質と時間的一貫性も重要である。
しかし、超低ビットレートでは、従来のエンドツーエンド圧縮モデルは知覚品質の悪いぼやけた画像を生成する傾向にある。
さらに、既存の生成圧縮手法は、ビデオフレームを独立して扱い、時間コヒーレンスと効率の限界を示すことが多い。
これらの課題に対処するため,STEM(Sparse Temporal Encoding Module)とODFTE(One-Step Video Diffusion with Frame Type Embedder)を組み合わせたDiff-SIT(Diff-SIT)を提案する。
STEMは、元のフレームシーケンスを情報豊富な中間シーケンスにスパースに符号化し、重要なビットレート保存を実現する。
その後、ODFTEはこの中間シーケンス全体を処理し、時間的相関を利用する。
この過程で提案するフレームタイプ埋め込み(FTE)は,拡散モデルを用いて異なるフレームタイプに応じて適応的な再構成を行い,全体的な品質を最適化する。
複数のデータセットに対する大規模な実験により、Diff-SITは知覚的品質と時間的一貫性、特に挑戦的な超低ビット状態において、新しい最先端技術を確立している。
コードはhttps://github.com/MingdeZhou/Diff-SIT.comで公開されている。
関連論文リスト
- High-Fidelity Causal Video Diffusion Models for Real-Time Ultra-Low-Bitrate Semantic Communication [43.045237067909106]
超低ビットレートセマンティック通信制約下での高忠実度・因果性・リアルタイムビデオ生成のためのビデオ拡散モデルを提案する。
この枠組みは,超低速度(0.0003bpp)における知覚的品質,意味的忠実度,時間的一貫性を強く達成し,定量的,質的,主観的評価において,古典的,神経的,生成的ベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-14T17:23:55Z) - MTC-VAE: Multi-Level Temporal Compression with Content Awareness [54.85288415164888]
Latent Video Diffusion Models (LVDMs) は可変オートエンコーダ (VAEs) を使ってビデオをコンパクトな遅延表現に圧縮する。
固定圧縮率VAEを多段階時間圧縮をサポートするモデルに変換する手法を提案する。
論文 参考訳(メタデータ) (2026-02-01T17:08:02Z) - DiffVC-RT: Towards Practical Real-Time Diffusion-based Perceptual Neural Video Compression [38.495966630021556]
我々は、リアルタイム拡散に基づくニューラルビデオ圧縮(NVC)を実現するための最初のフレームワークであるDiffVC-RTを提案する。
DiffVC-RTは、NVIDIA H800 GPU上の720pビデオに対して、リアルタイムエンコーディングとデコード速度206/30 fpsのHEVCデータセット上で、LPIPSよりもVTM-17.0よりも80.1%のパーセプティカルセーブを実現していることを示す。
論文 参考訳(メタデータ) (2026-01-28T12:59:25Z) - Autoregressive Video Autoencoder with Decoupled Temporal and Spatial Context [8.458436768725212]
ビデオオートエンコーダは、ビデオをコンパクトな潜在表現に圧縮して効率的な再構成を行う。
自動回帰ビデオオートエンコーダ(ARVAE)を提案する。
ARVAEは、非常に軽量なモデルと小規模のトレーニングデータにより、優れた再構築品質を実現する。
論文 参考訳(メタデータ) (2025-12-12T05:40:01Z) - VideoCompressa: Data-Efficient Video Understanding via Joint Temporal Compression and Spatial Reconstruction [55.66673587952058]
ビデオ理解モデルは、大規模データセットの禁止ストレージと計算コストによって、ますます制限されている。
VideoCompressaはビデオデータ合成のための新しいフレームワークで、動的潜在圧縮として問題を再構成する。
論文 参考訳(メタデータ) (2025-11-24T07:07:58Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Spatial Degradation-Aware and Temporal Consistent Diffusion Model for Compressed Video Super-Resolution [25.615935776826596]
ストレージと帯域幅の制限により、インターネット上で送信されるビデオは低画質で圧縮されたアーティファクトを特徴とすることが多い。
ビデオ超解像(VSR)は効率的なビデオ強調技術であるが、既存のVS手法では圧縮ビデオに焦点を絞らない。
圧縮VSRのための事前学習拡散モデルの先行性を利用する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T08:57:45Z) - High-Efficiency Neural Video Compression via Hierarchical Predictive Learning [27.41398149573729]
強化されたDeep Hierarchical Video Compression(DHVC 2.0)は、優れた圧縮性能と目覚ましい複雑さの効率を導入する。
階層的な予測符号化を使用して、各ビデオフレームをマルチスケール表現に変換する。
トランスミッションフレンドリーなプログレッシブデコーディングをサポートしており、パケットロスの存在下では特にネットワーク化されたビデオアプリケーションに有利である。
論文 参考訳(メタデータ) (2024-10-03T15:40:58Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。