論文の概要: Neural Image Compression Using Masked Sparse Visual Representation
- arxiv url: http://arxiv.org/abs/2309.11661v1
- Date: Wed, 20 Sep 2023 21:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:32:11.279138
- Title: Neural Image Compression Using Masked Sparse Visual Representation
- Title(参考訳): Masked Sparse Visual Representation を用いたニューラル画像圧縮
- Authors: Wei Jiang and Wei Wang and Yue Chen
- Abstract要約: 本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
- 参考スコア(独自算出の注目度): 17.229601298529825
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study neural image compression based on the Sparse Visual Representation
(SVR), where images are embedded into a discrete latent space spanned by
learned visual codebooks. By sharing codebooks with the decoder, the encoder
transfers integer codeword indices that are efficient and cross-platform
robust, and the decoder retrieves the embedded latent feature using the indices
for reconstruction. Previous SVR-based compression lacks effective mechanism
for rate-distortion tradeoffs, where one can only pursue either high
reconstruction quality or low transmission bitrate. We propose a Masked
Adaptive Codebook learning (M-AdaCode) method that applies masks to the latent
feature subspace to balance bitrate and reconstruction quality. A set of
semantic-class-dependent basis codebooks are learned, which are weighted
combined to generate a rich latent feature for high-quality reconstruction. The
combining weights are adaptively derived from each input image, providing
fidelity information with additional transmission costs. By masking out
unimportant weights in the encoder and recovering them in the decoder, we can
trade off reconstruction quality for transmission bits, and the masking rate
controls the balance between bitrate and distortion. Experiments over the
standard JPEG-AI dataset demonstrate the effectiveness of our M-AdaCode
approach.
- Abstract(参考訳): 本研究では,sparse visual representation (svr) に基づいて,学習した視覚コードブックにまたがる離散的潜在空間に画像を埋め込むニューラル画像圧縮について検討する。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームな整数コードワードインデックスを転送し、デコーダはインデクタを使って埋め込み潜在機能を復元する。
従来のsvrベースの圧縮は、高い再構成品質か低い伝送ビットレートのみを追求できるレートディストリクトトレードオフの効果的なメカニズムを欠いている。
本稿では,マスクを潜在機能部分空間に適用し,ビットレートと再構成品質のバランスをとるMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
セマンティクスクラス依存の基底コードブックのセットが学習され、それらは重み付けされ、高品質な再構築のために豊富な潜在機能を生成する。
結合重みは各入力画像から適応的に導出され、追加の伝送コストで忠実度情報を提供する。
エンコーダ内の重要でない重みをマスキングしてデコーダで復元することで、伝送ビットの再構成品質をトレードオフすることができ、マスキングレートがビットレートと歪みのバランスを制御する。
JPEG-AIデータセット上での実験では、M-AdaCodeアプローチの有効性が示されている。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network [10.427300958330816]
リモートセンシング画像をデコードして、特に低解像度で高い知覚品質を実現することは、依然として大きな課題である。
Invertible Neural Network-based Remote Sensor Image compression (INN-RSIC)法を提案する。
我々の INN-RSIC は、認識品質の観点から、既存の最先端のディープラーニングベースの画像圧縮手法よりも優れています。
論文 参考訳(メタデータ) (2024-05-17T03:52:37Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - An Efficient Implicit Neural Representation Image Codec Based on Mixed Autoregressive Model for Low-Complexity Decoding [43.43996899487615]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed AutoRegressive Model (MARM)を導入する。
MARMには提案したAutoRegressive Upsampler(ARU)ブロックが含まれている。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。