論文の概要: Neural Image Compression Using Masked Sparse Visual Representation
- arxiv url: http://arxiv.org/abs/2309.11661v1
- Date: Wed, 20 Sep 2023 21:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:32:11.279138
- Title: Neural Image Compression Using Masked Sparse Visual Representation
- Title(参考訳): Masked Sparse Visual Representation を用いたニューラル画像圧縮
- Authors: Wei Jiang and Wei Wang and Yue Chen
- Abstract要約: 本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
- 参考スコア(独自算出の注目度): 17.229601298529825
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study neural image compression based on the Sparse Visual Representation
(SVR), where images are embedded into a discrete latent space spanned by
learned visual codebooks. By sharing codebooks with the decoder, the encoder
transfers integer codeword indices that are efficient and cross-platform
robust, and the decoder retrieves the embedded latent feature using the indices
for reconstruction. Previous SVR-based compression lacks effective mechanism
for rate-distortion tradeoffs, where one can only pursue either high
reconstruction quality or low transmission bitrate. We propose a Masked
Adaptive Codebook learning (M-AdaCode) method that applies masks to the latent
feature subspace to balance bitrate and reconstruction quality. A set of
semantic-class-dependent basis codebooks are learned, which are weighted
combined to generate a rich latent feature for high-quality reconstruction. The
combining weights are adaptively derived from each input image, providing
fidelity information with additional transmission costs. By masking out
unimportant weights in the encoder and recovering them in the decoder, we can
trade off reconstruction quality for transmission bits, and the masking rate
controls the balance between bitrate and distortion. Experiments over the
standard JPEG-AI dataset demonstrate the effectiveness of our M-AdaCode
approach.
- Abstract(参考訳): 本研究では,sparse visual representation (svr) に基づいて,学習した視覚コードブックにまたがる離散的潜在空間に画像を埋め込むニューラル画像圧縮について検討する。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームな整数コードワードインデックスを転送し、デコーダはインデクタを使って埋め込み潜在機能を復元する。
従来のsvrベースの圧縮は、高い再構成品質か低い伝送ビットレートのみを追求できるレートディストリクトトレードオフの効果的なメカニズムを欠いている。
本稿では,マスクを潜在機能部分空間に適用し,ビットレートと再構成品質のバランスをとるMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
セマンティクスクラス依存の基底コードブックのセットが学習され、それらは重み付けされ、高品質な再構築のために豊富な潜在機能を生成する。
結合重みは各入力画像から適応的に導出され、追加の伝送コストで忠実度情報を提供する。
エンコーダ内の重要でない重みをマスキングしてデコーダで復元することで、伝送ビットの再構成品質をトレードオフすることができ、マスキングレートがビットレートと歪みのバランスを制御する。
JPEG-AIデータセット上での実験では、M-AdaCodeアプローチの有効性が示されている。
関連論文リスト
- Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression [62.888755394395716]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Fast Implicit Neural Representation Image Codec in Resource-limited
Devices [45.06963991604724]
画像圧縮のためのインプシットニューラル表現(INR)は、最先端のオートエンコーダモデルと比較して2つの重要な利点を提供する新興技術である。
我々は、現在のINRの復号時間を大幅に削減するために、新しいMixed Autoregressive Model(MARM)を導入する。
MARMには提案したオートレグレッシブ・アップサンプラー(ARU)ブロックが含まれており、これは計算効率が高い。
論文 参考訳(メタデータ) (2024-01-23T09:37:58Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。
本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。
我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文 参考訳(メタデータ) (2022-02-09T18:48:02Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。