論文の概要: Improving Statistical Fidelity for Neural Image Compression with
Implicit Local Likelihood Models
- arxiv url: http://arxiv.org/abs/2301.11189v2
- Date: Sat, 28 Jan 2023 23:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 20:26:39.509483
- Title: Improving Statistical Fidelity for Neural Image Compression with
Implicit Local Likelihood Models
- Title(参考訳): 局所近似モデルによるニューラル画像圧縮の統計的忠実度向上
- Authors: Matthew J. Muckley, Alaaeldin El-Nouby, Karen Ullrich, Herv\'e
J\'egou, Jakob Verbeek
- Abstract要約: ロスシー画像圧縮は、オリジナルへの忠実さを維持しながら、可能な限り数ビットで画像を表現することを目的としている。
VQ-VAEオートエンコーダを用いて得られた局所像の量子化を条件とした非バイナリ判別器を提案する。
- 参考スコア(独自算出の注目度): 31.308949268401047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lossy image compression aims to represent images in as few bits as possible
while maintaining fidelity to the original. Theoretical results indicate that
optimizing distortion metrics such as PSNR or MS-SSIM necessarily leads to a
discrepancy in the statistics of original images from those of reconstructions,
in particular at low bitrates, often manifested by the blurring of the
compressed images. Previous work has leveraged adversarial discriminators to
improve statistical fidelity. Yet these binary discriminators adopted from
generative modeling tasks may not be ideal for image compression. In this
paper, we introduce a non-binary discriminator that is conditioned on quantized
local image representations obtained via VQ-VAE autoencoders. Our evaluations
on the CLIC2020, DIV2K and Kodak datasets show that our discriminator is more
effective for jointly optimizing distortion (e.g., PSNR) and statistical
fidelity (e.g., FID) than the state-of-the-art HiFiC model. On the CLIC2020
test set, we obtain the same FID as HiFiC with 30-40% fewer bits.
- Abstract(参考訳): ロスシー画像圧縮は、オリジナルへの忠実さを維持しながら、可能な限り数ビットで画像を表現することを目的としている。
理論的には、PSNRやMS-SSIMなどの歪み測定値の最適化は、圧縮された画像のぼやけによってしばしば現れる、特に低ビットレートでの再構成画像と元の画像の統計に違いをもたらす。
以前の研究では、adversarial discriminatorsを利用して統計の忠実性を改善した。
しかし、生成的モデリングタスクから採用されているこれらのバイナリ判別器は、画像圧縮に理想的ではないかもしれない。
本稿では,VQ-VAEオートエンコーダを用いて得られた局所像の量子化を条件とした非バイナリ判別器を提案する。
CLIC2020,DIV2K,Kodakのデータセットによる評価から,我々の判別器は現状のHiFiCモデルよりも歪み(PSNRなど)と統計的忠実度(FIDなど)を共同最適化するのに有効であることが示された。
CLIC2020テストセットでは、30~40%ビット少ないHiFiCと同じFIDを得る。
関連論文リスト
- A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z) - Saliency Driven Perceptual Image Compression [6.201592931432016]
画像圧縮技術の性能評価にはMS-SSIMやPSNRなどの評価指標が不十分であることを示す。
画像圧縮に特有な知覚的類似性データに基づいて学習する新しい指標を提案する。
このモデルは視覚的に優れた画像を生成するだけでなく、その後のコンピュータビジョンタスクに優れた性能を与える。
論文 参考訳(メタデータ) (2020-02-12T13:43:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。