論文の概要: Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression
- arxiv url: http://arxiv.org/abs/2505.16177v1
- Date: Thu, 22 May 2025 03:31:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.012616
- Title: Generative Latent Coding for Ultra-Low Bitrate Image and Video Compression
- Title(参考訳): 超低ビットレート画像とビデオ圧縮のための生成遅延符号化
- Authors: Linfeng Qi, Zhaoyang Jia, Jiahao Li, Bin Li, Houqiang Li, Yan Lu,
- Abstract要約: 画像圧縮とビデオ圧縮のほとんどの手法は、画素空間における変換符号化を行い、冗長性を低減する。
画像とビデオの圧縮, GLCイメージ, GLC-Video のための textbfGenerative textbfLatent textbfGLC (textbfGLC) モデルを提案する。
- 参考スコア(独自算出の注目度): 61.500904231491596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing approaches for image and video compression perform transform coding in the pixel space to reduce redundancy. However, due to the misalignment between the pixel-space distortion and human perception, such schemes often face the difficulties in achieving both high-realism and high-fidelity at ultra-low bitrate. To solve this problem, we propose \textbf{G}enerative \textbf{L}atent \textbf{C}oding (\textbf{GLC}) models for image and video compression, termed GLC-image and GLC-Video. The transform coding of GLC is conducted in the latent space of a generative vector-quantized variational auto-encoder (VQ-VAE). Compared to the pixel-space, such a latent space offers greater sparsity, richer semantics and better alignment with human perception, and show its advantages in achieving high-realism and high-fidelity compression. To further enhance performance, we improve the hyper prior by introducing a spatial categorical hyper module in GLC-image and a spatio-temporal categorical hyper module in GLC-video. Additionally, the code-prediction-based loss function is proposed to enhance the semantic consistency. Experiments demonstrate that our scheme shows high visual quality at ultra-low bitrate for both image and video compression. For image compression, GLC-image achieves an impressive bitrate of less than $0.04$ bpp, achieving the same FID as previous SOTA model MS-ILLM while using $45\%$ fewer bitrate on the CLIC 2020 test set. For video compression, GLC-video achieves 65.3\% bitrate saving over PLVC in terms of DISTS.
- Abstract(参考訳): 画像圧縮とビデオ圧縮の既存のアプローチは、画素空間における変換符号化を行い、冗長性を低減している。
しかし、画素空間の歪みと人間の知覚の相違により、そのようなスキームは、超低ビットレートで高現実性と高忠実性の両方を達成することの難しさに直面することが多い。
この問題を解決するために,GLC-image と GLC-Video と呼ばれる画像およびビデオ圧縮のための \textbf{G}enerative \textbf{L}atent \textbf{C}oding (\textbf{GLC}) モデルを提案する。
GLCの変換符号化は、生成ベクトル量子化変分オートエンコーダ(VQ-VAE)の潜時空間で行われる。
ピクセル空間と比較すると、そのような潜在空間はより空間性があり、よりリッチなセマンティクスを持ち、人間の知覚との整合性が良く、高現実性や高忠実性圧縮を実現する上でその利点を示す。
GLC-imageに空間カテゴリーハイパーモジュール,GLC-videoに時空間カテゴリーハイパーモジュールを導入することにより,性能の向上を図る。
さらに、意味的一貫性を高めるために、コード予測に基づく損失関数を提案する。
実験により,画像圧縮と映像圧縮の両面において,超低ビットレートでの高画質化が示された。
画像圧縮では、GLC-imageは0.04$ bpp未満の印象的なビットレートを達成し、以前のSOTAモデルMS-ILLMと同じFIDを達成し、CLIC 2020テストセットでは45\%より少ないビットレートを使用する。
ビデオ圧縮では、GLC- Video は DisTS の点で PLVC よりも65.3 % ビットレートを節約できる。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - End-to-End Learnable Multi-Scale Feature Compression for VCM [8.037759667748768]
抽出した特徴量に対するエンドツーエンドの最適化と軽量エンコーダの設計を可能にする,新しいマルチスケール特徴量圧縮手法を提案する。
我々のモデルは、BDレートを少なくとも52%削減し、オブジェクト検出の符号化時間を$times5$から$times27$に短縮する。
論文 参考訳(メタデータ) (2023-06-29T04:05:13Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。