論文の概要: Robustly overfitting latents for flexible neural image compression
- arxiv url: http://arxiv.org/abs/2401.17789v3
- Date: Tue, 05 Nov 2024 14:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:48.646734
- Title: Robustly overfitting latents for flexible neural image compression
- Title(参考訳): フレキシブル・ニューラル・イメージ・圧縮のためのロバストな過剰適合ラテント
- Authors: Yura Perugachi-Diaz, Arwin Gansekoele, Sandjai Bhulai,
- Abstract要約: 最先端のニューラルイメージ圧縮モデルは、デコーダに効率的に送信できる量子化潜在表現に画像をエンコードすることを学ぶ。
これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。
最近の研究は、Gumbel annealing(SGA)を使用して、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。
提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。
- 参考スコア(独自算出の注目度): 1.7041035606170198
- License:
- Abstract: Neural image compression has made a great deal of progress. State-of-the-art models are based on variational autoencoders and are outperforming classical models. Neural compression models learn to encode an image into a quantized latent representation that can be efficiently sent to the decoder, which decodes the quantized latent into a reconstructed image. While these models have proven successful in practice, they lead to sub-optimal results due to imperfect optimization and limitations in the encoder and decoder capacity. Recent work shows how to use stochastic Gumbel annealing (SGA) to refine the latents of pre-trained neural image compression models. We extend this idea by introducing SGA+, which contains three different methods that build upon SGA. We show how our method improves the overall compression performance in terms of the R-D trade-off, compared to its predecessors. Additionally, we show how refinement of the latents with our best-performing method improves the compression performance on both the Tecnick and CLIC dataset. Our method is deployed for a pre-trained hyperprior and for a more flexible model. Further, we give a detailed analysis of our proposed methods and show that they are less sensitive to hyperparameter choices. Finally, we show how each method can be extended to three- instead of two-class rounding.
- Abstract(参考訳): ニューラル画像圧縮は大きな進歩を遂げた。
State-of-the-artモデルは変分オートエンコーダに基づいており、古典的なモデルよりも優れています。
ニューラル圧縮モデルは、画像をデコーダに効率的に送信できる量子化潜在表現にエンコードすることを学び、量子化潜在表現を再構成された画像にデコードする。
これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。
最近の研究は、確率的ガンベルアニール(SGA)を用いて、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。
SGA上に構築する3つの異なるメソッドを含むSGA+を導入することで、このアイデアを拡張します。
提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。
さらに,提案手法による潜伏剤の精製により,TecnickデータセットとCLICデータセットの圧縮性能が向上することを示す。
提案手法は,事前訓練されたハイパープライアと,より柔軟なモデルのために展開される。
さらに,提案手法の詳細な解析を行い,超パラメータ選択に対する感度が低いことを示す。
最後に、各メソッドを2クラスラウンドではなく3クラスに拡張する方法を示す。
関連論文リスト
- Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Improving The Reconstruction Quality by Overfitted Decoder Bias in
Neural Image Compression [3.058685580689605]
本稿では,デコーダのバイアスのサブセットをインスタンスベースで微調整することで,余分な符号化時間とわずかな追加信号コストと引き換えに再構成品質を向上させることを提案する。
提案手法は,どのエンドツーエンド圧縮手法にも適用でき,最先端のニューラルイメージ圧縮BDレートを3-5%向上させることができる。
論文 参考訳(メタデータ) (2022-10-10T08:14:01Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Post-Training Quantization for Cross-Platform Learned Image Compression [15.67527732099067]
学習した画像圧縮が従来の画像符号化技術より優れていることが確認されている。
考慮すべき最も重要な問題の1つは、非決定論的計算である。
本稿では,学習後量子化の導入によってこの問題を解決することを提案する。
論文 参考訳(メタデータ) (2022-02-15T15:41:12Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Asymmetric Gained Deep Image Compression With Continuous Rate Adaptation [12.009880944927069]
本稿では,非対称ゲイン変分オートエンコーダ(AG-VAE)の連続速度調整型画像圧縮フレームワークを提案する。
AG-VAEは、一組の利得単位を用いて、1つのモデルの離散レート適応を無視可能な追加計算で達成する。
提案手法は,SOTA学習画像圧縮手法を用いて,従来の画像コーデックよりも質的性能が向上する。
論文 参考訳(メタデータ) (2020-03-04T11:42:05Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。