論文の概要: DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework
- arxiv url: http://arxiv.org/abs/2508.07682v1
- Date: Mon, 11 Aug 2025 06:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.98253
- Title: DiffVC-OSD: One-Step Diffusion-based Perceptual Neural Video Compression Framework
- Title(参考訳): DiffVC-OSD: 1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワーク
- Authors: Wenzhuo Ma, Zhenzhong Chen,
- Abstract要約: まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
我々は、全体的な圧縮性能を改善するためにエンドツーエンドファインタニング戦略を採用する。
- 参考スコア(独自算出の注目度): 45.134271969594614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we first propose DiffVC-OSD, a One-Step Diffusion-based Perceptual Neural Video Compression framework. Unlike conventional multi-step diffusion-based methods, DiffVC-OSD feeds the reconstructed latent representation directly into a One-Step Diffusion Model, enhancing perceptual quality through a single diffusion step guided by both temporal context and the latent itself. To better leverage temporal dependencies, we design a Temporal Context Adapter that encodes conditional inputs into multi-level features, offering more fine-grained guidance for the Denoising Unet. Additionally, we employ an End-to-End Finetuning strategy to improve overall compression performance. Extensive experiments demonstrate that DiffVC-OSD achieves state-of-the-art perceptual compression performance, offers about 20$\times$ faster decoding and a 86.92\% bitrate reduction compared to the corresponding multi-step diffusion-based variant.
- Abstract(参考訳): 本研究では,まず,1ステップ拡散に基づく知覚型ニューラルビデオ圧縮フレームワークDiffVC-OSDを提案する。
従来の多段階拡散法とは異なり、DiffVC-OSDは再構成された潜伏表現を直接ワンステップ拡散モデルに供給し、時間的文脈と潜伏表現自体によって導かれる単一拡散ステップを通じて知覚品質を向上させる。
時間的依存をよりよく活用するために、条件付き入力をマルチレベル機能にエンコードするテンポラルコンテキストアダプタを設計し、よりきめ細かいDenoising Unetのガイダンスを提供します。
さらに、全体的な圧縮性能を改善するために、エンド・ツー・エンドのファインタニング戦略を採用する。
大規模な実験により、DiffVC-OSDは最先端の知覚圧縮性能を実現し、約20$\times$高速デコーディングと86.92\%のビットレート削減を実現している。
関連論文リスト
- Steering One-Step Diffusion Model with Fidelity-Rich Decoder for Fast Image Compression [36.10674664089876]
SODECは単一ステップ拡散に基づく画像圧縮モデルである。
遺伝子前駆体への過度な依存から生じる忠実性を改善する。
既存の手法よりも優れており、より優れたレート・歪み・知覚性能を実現している。
論文 参考訳(メタデータ) (2025-08-07T02:24:03Z) - One-Step Diffusion-Based Image Compression with Semantic Distillation [25.910952778218146]
OneDCは1ステップ拡散に基づく生成画像コーデックである。
OneDCは、ワンステップ生成でも知覚品質を達成する。
論文 参考訳(メタデータ) (2025-05-22T13:54:09Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [52.65036099944483]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
既存の手法のほとんどは、ランダムノイズから反復的にデノイングすることで、イメージを再構成する。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - One-Step Diffusion Model for Image Motion-Deblurring [85.76149042561507]
本稿では,脱臭過程を1段階に短縮する新しいフレームワークである脱臭拡散モデル(OSDD)を提案する。
拡散モデルにおける忠実度損失に対処するために,構造復元を改善する改良された変分オートエンコーダ(eVAE)を導入する。
提案手法は,実測値と非参照値の両方で高い性能を達成する。
論文 参考訳(メタデータ) (2025-03-09T09:39:57Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Diffusion-based Perceptual Neural Video Compression with Temporal Diffusion Information Reuse [45.134271969594614]
DiffVCは拡散型知覚型ニューラルビデオ圧縮フレームワークである。
基礎拡散モデルとビデオ条件符号化パラダイムを統合する。
提案手法は,知覚指標と視覚的品質の両方において優れた性能を提供することを示す。
論文 参考訳(メタデータ) (2025-01-23T10:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。