論文の概要: From Noise to Latent: Generating Gaussian Latents for INR-Based Image Compression
- arxiv url: http://arxiv.org/abs/2511.08009v1
- Date: Wed, 12 Nov 2025 01:33:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.597051
- Title: From Noise to Latent: Generating Gaussian Latents for INR-Based Image Compression
- Title(参考訳): 雑音から潜音へ:INR画像圧縮のためのガウス潜音生成
- Authors: Chaoyi Lin, Yaojun Wu, Yue Li, Junru Li, Kai Zhang, Li Zhang,
- Abstract要約: 最近の暗黙的ニューラル表現(INR)に基づく画像圧縮法は、画像固有の潜時符号を過度に適合させることで、競争性能を示している。
本稿では,複数スケールのガウス雑音から画像特異的潜伏音を再構成する新しい画像圧縮パラダイムを提案する。
提案手法は,KodakおよびCLICデータセット上での競合速度歪み性能を実現し,潜時符号の送信を不要とする。
- 参考スコア(独自算出の注目度): 15.519085773825656
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent implicit neural representation (INR)-based image compression methods have shown competitive performance by overfitting image-specific latent codes. However, they remain inferior to end-to-end (E2E) compression approaches due to the absence of expressive latent representations. On the other hand, E2E methods rely on transmitting latent codes and requiring complex entropy models, leading to increased decoding complexity. Inspired by the normalization strategy in E2E codecs where latents are transformed into Gaussian noise to demonstrate the removal of spatial redundancy, we explore the inverse direction: generating latents directly from Gaussian noise. In this paper, we propose a novel image compression paradigm that reconstructs image-specific latents from a multi-scale Gaussian noise tensor, deterministically generated using a shared random seed. A Gaussian Parameter Prediction (GPP) module estimates the distribution parameters, enabling one-shot latent generation via reparameterization trick. The predicted latent is then passed through a synthesis network to reconstruct the image. Our method eliminates the need to transmit latent codes while preserving latent-based benefits, achieving competitive rate-distortion performance on Kodak and CLIC dataset. To the best of our knowledge, this is the first work to explore Gaussian latent generation for learned image compression.
- Abstract(参考訳): 最近の暗黙的ニューラル表現(INR)に基づく画像圧縮法は、画像固有の潜時符号を過度に適合させることで、競争性能を示している。
しかし、表現的な潜在表現がないため、エンドツーエンド(E2E)圧縮アプローチよりも劣っている。
一方、E2E法は遅延符号を送信し、複雑なエントロピーモデルを必要とするため、復号化の複雑さが増大する。
E2Eコーデックの正規化戦略により,潜伏音をガウス雑音に変換し,空間的冗長性の除去を実証し,逆方向:ガウス雑音から直接潜伏音を生成する。
本稿では,複数スケールのガウス雑音テンソルから画像特異的な潜像を再構成する新しい画像圧縮パラダイムを提案する。
ガウスパラメータ予測(GPP)モジュールは分布パラメータを推定し、再パラメータ化トリックによるワンショット潜在生成を可能にする。
予測された潜伏剤は合成ネットワークを通過して画像の再構成を行う。
提案手法は,KodakおよびCLICデータセット上での競合速度歪み性能を実現し,潜時符号の送信を不要とする。
我々の知る限りでは、これは学習された画像圧縮のためのガウス潜在世代を探索する最初の試みである。
関連論文リスト
- Generative Image Compression by Estimating Gradients of the Rate-variable Feature Distribution [37.60572296105984]
生成画像圧縮に適した拡散に基づく新しい生成モデリングフレームワークを提案する。
逆ニューラルネットワークは、圧縮プロセスを直接反転することにより、画像の再構成を訓練する。
このアプローチは、最小限のサンプリングステップしか持たないスムーズなレート調整とフォトリアリスティックな再構成を実現する。
論文 参考訳(メタデータ) (2025-05-27T10:18:24Z) - OSCAR: One-Step Diffusion Codec Across Multiple Bit-rates [39.746866725267516]
事前訓練された潜伏拡散モデルでは、画像圧縮が失われる可能性が強い。
我々はOSCARと呼ばれる複数のビットレートにまたがる1ステップ拡散を提案する。
実験により、OSCARは量的および視覚的品質の指標において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-05-22T00:14:12Z) - Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。
CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文 参考訳(メタデータ) (2025-05-19T14:13:14Z) - Compressed Image Generation with Denoising Diffusion Codebook Models [31.58365182858562]
本稿では,高品質な画像サンプルと非圧縮ビットストリーム表現を生成する新しい生成手法を提案する。
これは、逆拡散における標準ガウスノイズサンプリングを、固定イドガウスベクトルの予め定義されたコードブックから選択したノイズサンプルに置き換えることによって得られる。
DDCMを利用して、与えられた画像に最もよくマッチするコードブックからノイズを抽出し、生成モデルを高能率な損失画像に変換する。
論文 参考訳(メタデータ) (2025-02-03T09:25:57Z) - Robustly overfitting latents for flexible neural image compression [1.7041035606170198]
最先端のニューラルイメージ圧縮モデルは、デコーダに効率的に送信できる量子化潜在表現に画像をエンコードすることを学ぶ。
これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。
最近の研究は、Gumbel annealing(SGA)を使用して、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。
提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。
論文 参考訳(メタデータ) (2024-01-31T12:32:17Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Causal Contextual Prediction for Learned Image Compression [36.08393281509613]
本稿では,逐次的復号化プロセスを利用して潜在空間における因果文脈のエントロピー予測を行うために,分離エントロピー符号化の概念を提案する。
チャネル間の潜伏を分離し、チャネル間の関係を利用して高度に情報的コンテキストを生成する因果コンテキストモデルを提案する。
また、未知点の正確な予測のためのグローバル参照ポイントを見つけることができる因果的大域的予測モデルを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:15:10Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。