論文の概要: Extreme Video Compression with Pre-trained Diffusion Models
- arxiv url: http://arxiv.org/abs/2402.08934v1
- Date: Wed, 14 Feb 2024 04:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 16:56:04.088177
- Title: Extreme Video Compression with Pre-trained Diffusion Models
- Title(参考訳): 事前学習拡散モデルによる極端映像圧縮
- Authors: Bohan Li, Yiming Liu, Xueyan Niu, Bo Bai, Lei Deng, and Deniz
G\"und\"uz
- Abstract要約: 本稿では,デコーダにおける拡散型生成モデルの予測力を活用した,極端な映像圧縮のための新しい手法を提案する。
ビデオ全体が順次エンコードされ、知覚品質の指標を考慮し、視覚的に快く再現される。
その結果、生成モデルを用いて映像データの時間的関係を活用できる可能性が示された。
- 参考スコア(独自算出の注目度): 11.898317376595697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have achieved remarkable success in generating high quality
image and video data. More recently, they have also been used for image
compression with high perceptual quality. In this paper, we present a novel
approach to extreme video compression leveraging the predictive power of
diffusion-based generative models at the decoder. The conditional diffusion
model takes several neural compressed frames and generates subsequent frames.
When the reconstruction quality drops below the desired level, new frames are
encoded to restart prediction. The entire video is sequentially encoded to
achieve a visually pleasing reconstruction, considering perceptual quality
metrics such as the learned perceptual image patch similarity (LPIPS) and the
Frechet video distance (FVD), at bit rates as low as 0.02 bits per pixel (bpp).
Experimental results demonstrate the effectiveness of the proposed scheme
compared to standard codecs such as H.264 and H.265 in the low bpp regime. The
results showcase the potential of exploiting the temporal relations in video
data using generative models. Code is available at:
https://github.com/ElesionKyrie/Extreme-Video-Compression-With-Prediction-Using-Pre-trainded-Diffusi on-Models-
- Abstract(参考訳): 拡散モデルは高品質な画像やビデオデータを生成することに成功している。
最近では、知覚品質の高い画像圧縮にも使われている。
本稿では,デコーダにおける拡散型生成モデルの予測能力を活用した,極端なビデオ圧縮手法を提案する。
条件拡散モデルは複数のニューラルネットワーク圧縮フレームを取り込み、それに続くフレームを生成する。
復元品質が所望のレベルを下回ると、新しいフレームがエンコードされ、再開予測が再開される。
ビデオ全体は、LPIPS(Learled Perceptual Image patch similarity)やFrechet Video distance(FVD)といった知覚品質の指標を1ピクセルあたり0.02ビット(bpp)のビットレートで考慮して、視覚的に心地よい再構成を実現するために順次符号化される。
H.264やH.265などの標準コーデックと比較して低bpp方式で提案手法の有効性を示す実験結果が得られた。
その結果,生成モデルを用いた映像データの時間関係を活用できる可能性が示された。
https://github.com/ElesionKyrie/Extreme-Video-Compression-With-Prediction-Using-Pre-trainded-Diffusi on-Models
関連論文リスト
- Correcting Diffusion-Based Perceptual Image Compression with Privileged End-to-End Decoder [49.01721042973929]
本稿では,特権付きエンド・ツー・エンド・エンド・デコーダ・モデルを用いた拡散型画像圧縮法を提案する。
従来の知覚圧縮法と比較して,歪みと知覚の両方において,本手法の優位性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-07T10:57:54Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。
各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文 参考訳(メタデータ) (2022-07-09T19:07:43Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Perceptual Learned Video Compression with Recurrent Conditional GAN [158.0726042755]
本稿では, PVC (Perceptual Learned Video Compression) アプローチを提案する。
PLVCは低ビットレートで映像を知覚品質に圧縮することを学ぶ。
ユーザスタディでは、最新の学習ビデオ圧縮手法と比較して、PLVCの優れた知覚性能をさらに検証している。
論文 参考訳(メタデータ) (2021-09-07T13:36:57Z) - Overfitting for Fun and Profit: Instance-Adaptive Data Compression [20.764189960709164]
ニューラルデータ圧縮は、RD$パフォーマンスの点で古典的手法より優れていることが示されている。
本稿では,この概念を極端に取り入れ,全モデルを単一ビデオに適用し,潜在表現とともにモデル更新を送信する。
エンコーダのみの微調整に関して,フルモデル適応によりRD$性能が1dB向上することが実証された。
論文 参考訳(メタデータ) (2021-01-21T15:58:58Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z) - Learning for Video Compression with Recurrent Auto-Encoder and Recurrent
Probability Model [164.7489982837475]
本稿では、リカレントオートエンコーダ(RAE)とリカレント確率モデル(RPM)を用いたリカレントラーニングビデオ圧縮(RLVC)手法を提案する。
RAEは、ビデオフレーム間の時間的相関を利用するために、エンコーダとデコーダの両方で繰り返しセルを使用する。
提案手法は,PSNRとMS-SSIMの両方の観点から,最先端の学習ビデオ圧縮性能を実現する。
論文 参考訳(メタデータ) (2020-06-24T08:46:33Z) - Variable Rate Video Compression using a Hybrid Recurrent Convolutional
Learning Framework [1.9290392443571382]
本稿では,予測自動符号化の概念に基づくハイブリッドビデオ圧縮フレームワークであるPredEncoderを提案する。
可変レートブロック符号化方式が論文で提案され,ビットレート比が著しく向上した。
論文 参考訳(メタデータ) (2020-04-08T20:49:25Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。