論文の概要: Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression
- arxiv url: http://arxiv.org/abs/2604.10546v1
- Date: Sun, 12 Apr 2026 09:25:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.091445
- Title: Differentiable Vector Quantization for Rate-Distortion Optimization of Generative Image Compression
- Title(参考訳): 生成画像圧縮の速度歪み最適化のための微分ベクトル量子化
- Authors: Shiyin Jiang, Wei Long, Minghao Han, Zhenghao Chen, Ce Zhu, Shuhang Gu,
- Abstract要約: 低ビットレート画像圧縮のためのエンドツーエンドRD最適化を実現する統一フレームワークRDVQを提案する。
我々は,正確なエントロピーモデリングとテスト時間率制御をサポートする自己回帰エントロピーモデルを開発した。
RD2K-valと比較すると、RDVQは DisTSで75.71%、DIV2K-valでLPIPSで37.63%減少する。
- 参考スコア(独自算出の注目度): 53.041405703471895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid growth of visual data under stringent storage and bandwidth constraints makes extremely low-bitrate image compression increasingly important. While Vector Quantization (VQ) offers strong structural fidelity, existing methods lack a principled mechanism for joint rate-distortion (RD) optimization due to the disconnect between representation learning and entropy modeling. We propose RDVQ, a unified framework that enables end-to-end RD optimization for VQ-based compression via a differentiable relaxation of the codebook distribution, allowing the entropy loss to directly shape the latent prior. We further develop an autoregressive entropy model that supports accurate entropy modeling and test-time rate control. Extensive experiments demonstrate that RDVQ achieves strong performance at extremely low bitrates with a lightweight architecture, attaining competitive or superior perceptual quality with significantly fewer parameters. Compared with RDEIC, RDVQ reduces bitrate by up to 75.71% on DISTS and 37.63% on LPIPS on DIV2K-val. Beyond empirical gains, RDVQ introduces an entropy-constrained formulation of VQ, highlighting the potential for a more unified view of image tokenization and compression. The code will be available at https://github.com/CVL-UESTC/RDVQ.
- Abstract(参考訳): ゆるやかなストレージと帯域制限下での視覚データの急速な増加は、非常に低ビットレートの画像圧縮をますます重要にしている。
ベクトル量子化(VQ)は強い構造的忠実性を提供するが、既存の手法では表現学習とエントロピーモデリングの切り離しによる結合速度歪み(RD)最適化の原理的なメカニズムが欠如している。
本稿では,コードブック分布の微分緩和により,VQに基づく圧縮のエンドツーエンドRD最適化を可能にする統一フレームワークRDVQを提案する。
さらに、正確なエントロピーモデリングとテスト時間率制御をサポートする自己回帰エントロピーモデルを開発する。
RDVQは、軽量なアーキテクチャで非常に低ビットレートで高い性能を達成し、非常に少ないパラメータで、競争力や優れた知覚品質を達成することを実証した。
RDEICと比較すると、RDVQ は DisTS で 75.71% 、DIV2K-val で LPIPS で 37.63% までビットレートを減少させる。
実証的なゲイン以外にも、RDVQはVQのエントロピー制約による定式化を導入し、画像のトークン化と圧縮のより統一されたビューの可能性を強調している。
コードはhttps://github.com/CVL-UESTC/RDVQ.comで入手できる。
関連論文リスト
- ARCHE: Autoregressive Residual Compression with Hyperprior and Excitation [1.376408511310322]
ARCHEは、モデリング精度と計算効率のバランスをとるエンドツーエンドの学習画像圧縮フレームワークである。
再カレントやトランスフォーマーベースのコンポーネントに頼ることなく、最先端の速度歪み効率を実現する。
視覚的比較は、特に低ビットレートで、よりシャープなテクスチャと色の忠実度を確認できる。
論文 参考訳(メタデータ) (2026-03-10T19:32:10Z) - HVQ-CGIC: Enabling Hyperprior Entropy Modeling for VQ-Based Controllable Generative Image Compression [0.0]
VQハイパープライヤに基づく制御可能な生成画像圧縮フレームワークを提案する。
HVQ-CGICは、VQ指標エントロピーモデルにハイパープライアを導入する数学的基礎を厳密に導き出している。
現状のSOTA (State-of-the-art) 生成圧縮法と比較して,RD( rate-distortion) 性能において大きな利点がある。
論文 参考訳(メタデータ) (2025-12-08T06:10:07Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - VRVVC: Variable-Rate NeRF-Based Volumetric Video Compression [59.14355576912495]
NeRFベースのビデオは、FVV(Photorealistic Free-Viewpoint Video)体験を提供することによって、ビジュアルメディアに革命をもたらした。
大量のデータボリュームは、ストレージと送信に重大な課題をもたらす。
ビデオ圧縮のための新しいエンドツーエンドの可変レートフレームワークであるVRVVCを提案する。
論文 参考訳(メタデータ) (2024-12-16T01:28:04Z) - Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaptation [52.82508784748278]
本稿では,制御生成画像圧縮フレームワークである制御-GICを提案する。
制御-GICは、高忠実度と一般性圧縮を確保しつつ、広帯域での微粒化適応を可能にする。
実験により,制御-GICは高い柔軟かつ制御可能な適応を可能にし,その結果が最近の最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-06-02T14:22:09Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - LVQAC: Lattice Vector Quantization Coupled with Spatially Adaptive
Companding for Efficient Learned Image Compression [24.812267280543693]
本稿では,空間適応型コンパウンディング(LVQAC)マッピングを併用した新しい格子ベクトル量子化方式を提案する。
エンドツーエンドのCNN画像圧縮モデルでは、一様量子化器をLVQACで置き換えることにより、モデルの複雑さを大幅に増大させることなく、より優れたレート歪み性能が得られる。
論文 参考訳(メタデータ) (2023-03-25T23:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。