論文の概要: HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression
- arxiv url: http://arxiv.org/abs/2404.13372v1
- Date: Sat, 20 Apr 2024 13:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 19:19:56.953890
- Title: HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression
- Title(参考訳): HybridFlow:極低ビットレート画像圧縮のためのマスク付きコードブックへの連続性注入
- Authors: Lei Lu, Yanyue Xie, Wei Jiang, Wei Wang, Xue Lin, Yanzhi Wang,
- Abstract要約: HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
- 参考スコア(独自算出の注目度): 51.04820313355164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper investigates the challenging problem of learned image compression (LIC) with extreme low bitrates. Previous LIC methods based on transmitting quantized continuous features often yield blurry and noisy reconstruction due to the severe quantization loss. While previous LIC methods based on learned codebooks that discretize visual space usually give poor-fidelity reconstruction due to the insufficient representation power of limited codewords in capturing faithful details. We propose a novel dual-stream framework, HyrbidFlow, which combines the continuous-feature-based and codebook-based streams to achieve both high perceptual quality and high fidelity under extreme low bitrates. The codebook-based stream benefits from the high-quality learned codebook priors to provide high quality and clarity in reconstructed images. The continuous feature stream targets at maintaining fidelity details. To achieve the ultra low bitrate, a masked token-based transformer is further proposed, where we only transmit a masked portion of codeword indices and recover the missing indices through token generation guided by information from the continuous feature stream. We also develop a bridging correction network to merge the two streams in pixel decoding for final image reconstruction, where the continuous stream features rectify biases of the codebook-based pixel decoder to impose reconstructed fidelity details. Experimental results demonstrate superior performance across several datasets under extremely low bitrates, compared with existing single-stream codebook-based or continuous-feature-based LIC methods.
- Abstract(参考訳): 本稿では,極低ビットレートの学習画像圧縮(lic)の課題について検討する。
量子化された連続的な特徴を伝達する先進的な手法は、重度の量子化損失のため、しばしばぼやけやノイズの多い再構成をもたらす。
視覚空間を識別する学習されたコードブックに基づく従来のlicメソッドは、通常は、忠実な詳細をキャプチャする際、限定されたコードワードの表現能力が不十分なため、不忠実な再構築をもたらす。
本稿では,超低ビットレート下での高知覚品質と高忠実度を実現するために,連続的な機能ベースとコードブックベースのストリームを組み合わせた新しいデュアルストリームフレームワークHyrbidFlowを提案する。
コードブックベースのストリームは、以前に学習されたコードブックから恩恵を受け、再構築された画像の質と明快さを提供する。
継続的機能ストリームは、忠実さの詳細を維持することを目標としている。
超低ビットレートを実現するために、マスク付きトークンベースのトランスフォーマが提案され、ここでは、コードワードインデックスのマスク部分のみを送信し、連続特徴ストリームから情報に導かれるトークン生成により、欠落したインデックスを復元する。
また、最終的な画像再構成のための画素復号法において、2つのストリームをマージするブリッジ補正ネットワークを構築し、連続的なストリーム特徴は、コードブックベースの画素復号器のバイアスを補正し、再構成された忠実度の詳細を強制する。
実験結果は、既存のシングルストリームのコードブックベースや連続機能ベースのlic手法と比較して、非常に低ビットレートで複数のデータセット間で優れた性能を示す。
関連論文リスト
- $ε$-VAE: Denoising as Visual Decoding [61.29255979767292]
生成モデリングにおいて、トークン化は複雑なデータをコンパクトで構造化された表現に単純化し、より効率的で学習可能な空間を作り出す。
現在の視覚的トークン化手法は従来のオートエンコーダフレームワークに依存しており、エンコーダはデータを潜在表現に圧縮し、デコーダは元の入力を再構築する。
具体的には,デコーダを拡散処理に置き換え,ノイズを反復的に除去して元のイメージを復元し,エンコーダが提供する潜伏者によって誘導される。
再建(rFID)と生成品質(ジェネレーション品質)の両面からアプローチを評価する。
論文 参考訳(メタデータ) (2024-10-05T08:27:53Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption [57.056311855630916]
本稿では,制御可能な生成画像圧縮フレームワークである制御-GICを提案する。
高忠実度および一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
我々は、歴史的符号化された多粒度表現に遡ることができる条件条件付き条件付けを開発する。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Neural Image Compression Using Masked Sparse Visual Representation [17.229601298529825]
本研究では,Sparse Visual Representation (SVR) に基づくニューラル画像圧縮について検討し,学習されたビジュアルコードブックにまたがる離散潜在空間に画像が埋め込まれた。
コードブックをデコーダと共有することにより、エンコーダは効率的でクロスプラットフォームなコードワードインデックスを転送する。
本稿では,マスクを潜在機能部分空間に適用して品質のバランスと再構築を行うMasked Adaptive Codebook Learning (M-AdaCode)法を提案する。
論文 参考訳(メタデータ) (2023-09-20T21:59:23Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Progressive Neural Image Compression with Nested Quantization and Latent
Ordering [16.871212593949487]
本稿では,1ビットストリームでスケーラブルな符号化を可能にすることにより,可変圧縮の境界を押し上げるプログレッシブ・ニューラルイメージ圧縮方式であるPLONQを提案する。
我々の知る限り、PLONQは学習ベースのプログレッシブ画像符号化方式であり、よく知られたウェーブレットベースのプログレッシブ画像であるSPIHTより優れている。
論文 参考訳(メタデータ) (2021-02-04T22:06:13Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。