論文の概要: Exploiting Latent Properties to Optimize Neural Codecs
- arxiv url: http://arxiv.org/abs/2501.01231v1
- Date: Thu, 02 Jan 2025 12:45:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:40.486048
- Title: Exploiting Latent Properties to Optimize Neural Codecs
- Title(参考訳): ニューラルコーデックの最適化のための潜時特性の爆発
- Authors: Muhammet Balcilar, Bharath Bhushan Damodaran, Karam Naser, Franck Galpin, Pierre Hellier,
- Abstract要約: 本稿では,ベクトル量子化とエントロピー勾配の利点を利用して,市販コーデックの性能を向上させることを提案する。
これらの手法は、様々な事前訓練された手法で同じ品質の1~3%のコストを節約できることが示される。
- 参考スコア(独自算出の注目度): 5.725546754007691
- License:
- Abstract: End-to-end image and video codecs are becoming increasingly competitive, compared to traditional compression techniques that have been developed through decades of manual engineering efforts. These trainable codecs have many advantages over traditional techniques, such as their straightforward adaptation to perceptual distortion metrics and high performance in specific fields thanks to their learning ability. However, current state-of-the-art neural codecs do not fully exploit the benefits of vector quantization and the existence of the entropy gradient in decoding devices. In this paper, we propose to leverage these two properties (vector quantization and entropy gradient) to improve the performance of off-the-shelf codecs. Firstly, we demonstrate that using non-uniform scalar quantization cannot improve performance over uniform quantization. We thus suggest using predefined optimal uniform vector quantization to improve performance. Secondly, we show that the entropy gradient, available at the decoder, is correlated with the reconstruction error gradient, which is not available at the decoder. We therefore use the former as a proxy to enhance compression performance. Our experimental results show that these approaches save between 1 to 3% of the rate for the same quality across various pretrained methods. In addition, the entropy gradient based solution improves traditional codec performance significantly as well.
- Abstract(参考訳): エンドツーエンドの画像とビデオコーデックは、何十年にもわたって手作業で開発されてきた従来の圧縮技術と比較して、ますます競争力が高まっている。
これらのトレーニング可能なコーデックは、知覚歪みメトリクスへの直接的な適応や、学習能力のおかげで特定の分野における高いパフォーマンスなど、従来の技術よりも多くの利点がある。
しかし、現在の最先端のニューラルコーデックはベクトル量子化の利点とデコード装置におけるエントロピー勾配の存在を完全に活用していない。
本稿では,これらの2つの特性(ベクトル量子化とエントロピー勾配)を活用して,市販コーデックの性能を向上させることを提案する。
まず, 不均一なスカラー量子化を用いることで, 均一な量子化よりも性能が向上することを示した。
そこで我々は,事前定義された一様ベクトル量子化を用いて性能を向上させることを提案する。
次に,デコーダで利用可能なエントロピー勾配はデコーダでは利用できない再構成誤差勾配と相関していることを示す。
したがって、圧縮性能を高めるために、前者をプロキシとして使用する。
実験の結果,これらの手法は,様々な事前学習手法で同一品質の1~3%を節約できることがわかった。
さらにエントロピー勾配に基づくソリューションは従来のコーデック性能を大幅に改善する。
関連論文リスト
- VRVQ: Variable Bitrate Residual Vector Quantization for Audio Compression [29.368893236587343]
最近のニューラルオーディオ圧縮モデルでは、残留ベクトル量子化(RVQ)が徐々に採用されている
これらのモデルはフレーム毎に一定数のコードブックを使用し、レート・歪曲トレードオフの点では最適である。
本稿では,音声コーデックの可変RVQ (VRVQ) を提案する。
論文 参考訳(メタデータ) (2024-10-08T13:18:24Z) - Prediction and Reference Quality Adaptation for Learned Video Compression [54.58691829087094]
本研究では,空間的およびチャネル的予測品質差の明確な識別を行うために,信頼度に基づく予測品質適応(PQA)モジュールを提案する。
また、参照品質適応(RQA)モジュールと関連する繰り返し学習戦略を提案し、様々な参照品質のための動的空間変化フィルタを提供する。
論文 参考訳(メタデータ) (2024-06-20T09:03:26Z) - ContextGS: Compact 3D Gaussian Splatting with Anchor Level Context Model [77.71796503321632]
我々は3DGS表現のアンカーレベルにコンテキストモデルを導入し,バニラ3DGSと比較して100倍以上のサイズの縮小を実現した。
我々の研究は3DGS表現のためのアンカーレベルのコンテキストモデルを開拓し、バニラ3DGSに比べて100倍以上、そして最新の最先端のScaffold-GSに比べて15倍の大幅なサイズ縮小を実現した。
論文 参考訳(メタデータ) (2024-05-31T09:23:39Z) - Accelerating Learnt Video Codecs with Gradient Decay and Layer-wise
Distillation [17.980800481385195]
本稿では, 勾配減衰と適応層ワイド蒸留に基づく新しいモデル非依存プルーニング手法を提案する。
その結果,BD-PSNRでは最大65%のMACと2倍のスピードアップ,0.3dB未満のBD-PSNRが得られた。
論文 参考訳(メタデータ) (2023-12-05T09:26:09Z) - Latent-Shift: Gradient of Entropy Helps Neural Codecs [4.449835214520727]
エントロピーの勾配は再建誤差の勾配と相関していることを示す。
実験により, この勾配は様々な圧縮法で利用でき, 1-2%の節約率が得られることを示した。
論文 参考訳(メタデータ) (2023-08-01T15:12:36Z) - Quick Dense Retrievers Consume KALE: Post Training Kullback Leibler
Alignment of Embeddings for Asymmetrical dual encoders [89.29256833403169]
我々は,高密度検索手法の推論効率を高めるための効率的かつ正確な手法であるKulback Leibler Alignment of Embeddings (KALE)を紹介した。
KALEは、バイエンコーダトレーニング後の従来の知識蒸留を拡張し、完全なリトレーニングやインデックス生成なしに効率的なクエリエンコーダ圧縮を可能にする。
KALEと非対称トレーニングを用いることで、3倍高速な推論を持つにもかかわらず、DistilBERTの性能を超えるモデルを生成することができる。
論文 参考訳(メタデータ) (2023-03-31T15:44:13Z) - Differentiable bit-rate estimation for neural-based video codec
enhancement [2.592974861902384]
ニューラルネットワーク(NN)は、符号化されたビデオの前処理と後処理によって、標準的なビデオ圧縮を改善することができる。
NNトレーニングを最適にするためには、標準的なプロキシを、推定ビットレートと歪みのデリバティブを提供するプロキシに置き換える必要がある。
本稿では、エンド・ツー・エンドのニューラルコーデックのトレーニングで使用されるタイプに類似したビットレート推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-01-24T01:36:07Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Learned transform compression with optimized entropy encoding [72.20409648915398]
学習した変換圧縮の問題を検討し、離散符号上の変換と確率分布の両方を学習する。
勾配のバックプロパゲーションを可能にするために量子化演算をソフト緩和し, 潜在符号のベクトル量子化を(スカラーではなく)採用した。
論文 参考訳(メタデータ) (2021-04-07T17:58:01Z) - Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。
本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。
従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文 参考訳(メタデータ) (2020-03-25T09:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。