論文の概要: SANR: Scene-Aware Neural Representation for Light Field Image Compression with Rate-Distortion Optimization
- arxiv url: http://arxiv.org/abs/2510.15775v1
- Date: Fri, 17 Oct 2025 16:00:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.700445
- Title: SANR: Scene-Aware Neural Representation for Light Field Image Compression with Rate-Distortion Optimization
- Title(参考訳): SANR:レート歪み最適化による光場画像圧縮のためのシーン認識型ニューラル表現
- Authors: Gai Zhang, Xinfeng Zhang, Lv Tang, Hongyu An, Li Zhang, Qingming Huang,
- Abstract要約: エンドツーエンドの速度歪みを最適化した光場画像圧縮のためのScene-Aware Neural Representationフレームワークを提案する。
シーン認識のために,SANRは階層的なシーンモデリングブロックを導入している。
実験の結果,SANRはHEVCに対する65.62%のBD節減率で,変形率に関する最先端技術よりも有意に優れていた。
- 参考スコア(独自算出の注目度): 54.184486302645716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Light field images capture multi-view scene information and play a crucial role in 3D scene reconstruction. However, their high-dimensional nature results in enormous data volumes, posing a significant challenge for efficient compression in practical storage and transmission scenarios. Although neural representation-based methods have shown promise in light field image compression, most approaches rely on direct coordinate-to-pixel mapping through implicit neural representation (INR), often neglecting the explicit modeling of scene structure. Moreover, they typically lack end-to-end rate-distortion optimization, limiting their compression efficiency. To address these limitations, we propose SANR, a Scene-Aware Neural Representation framework for light field image compression with end-to-end rate-distortion optimization. For scene awareness, SANR introduces a hierarchical scene modeling block that leverages multi-scale latent codes to capture intrinsic scene structures, thereby reducing the information gap between INR input coordinates and the target light field image. From a compression perspective, SANR is the first to incorporate entropy-constrained quantization-aware training (QAT) into neural representation-based light field image compression, enabling end-to-end rate-distortion optimization. Extensive experiment results demonstrate that SANR significantly outperforms state-of-the-art techniques regarding rate-distortion performance with a 65.62\% BD-rate saving against HEVC.
- Abstract(参考訳): 光場画像は多視点シーン情報をキャプチャし、3次元シーン再構築において重要な役割を果たす。
しかし、その高次元の性質は膨大なデータ量をもたらし、実用的なストレージや送信シナリオにおける効率的な圧縮に重大な課題をもたらす。
ニューラル表現に基づく手法は光場画像圧縮において有望であるが、ほとんどのアプローチは暗黙的なニューラル表現(INR)を通して直接座標-画素マッピングに依存しており、しばしばシーン構造の明示的なモデリングを無視している。
さらに、それらは通常、エンドツーエンドの速度歪みの最適化がなく、圧縮効率が制限される。
これらの制約に対処するため,本研究では,エンドツーエンドの速度歪みを最適化した光場画像圧縮のためのScene-Aware Neural RepresentationフレームワークであるSANRを提案する。
シーン認識のために,SANRは階層的なシーンモデリングブロックを導入し,複数スケールの潜伏符号を用いて固有のシーン構造をキャプチャし,INR入力座標と対象光野画像との間の情報ギャップを低減する。
圧縮の観点からは、SANRはエントロピー制約付き量子化対応トレーニング(QAT)を神経表現に基づく光フィールド画像圧縮に取り入れ、エンドツーエンドのレート・歪みの最適化を可能にする。
実験の結果,SANRは65.62 %のBD削減率でHEVCに対して最先端の変形性能を著しく上回っていることがわかった。
関連論文リスト
- COLI: A Hierarchical Efficient Compressor for Large Images [18.697445453003983]
Inlicit Neural Representations (INR)は、空間座標から個々の画像のピクセル強度への連続的なマッピングを学習することで、有望な代替手段を提供する。
我々は、NeRV(Neural Representations for Videos)を利用した新しいフレームワークであるCOLI(Compressor for Large Images)を紹介する。
また,COLIは,最大4倍のNRVトレーニングをしながら,PSNRとSSIMの競合や優れた測定値を,ピクセル当たりのビット数(bpp)で連続的に達成することを示した。
論文 参考訳(メタデータ) (2025-07-15T16:07:07Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - Range Image-Based Implicit Neural Compression for LiDAR Point Clouds [10.143205531474907]
我々は,3次元LiDAR観測の軽量なフォーマットとして,2Dレンジ画像(RI)に着目した。
本稿では,浮動小数点値画素を効果的に処理する暗黙的ニューラル表現(INR)に基づくRI圧縮法を提案する。
KITTIデータセットを用いた実験により,提案手法は既存の画像,点雲,RI,INRに基づく圧縮手法を3次元再構成および検出品質で上回ることがわかった。
論文 参考訳(メタデータ) (2025-04-24T03:41:57Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - A Rate-Distortion-Classification Approach for Lossy Image Compression [0.0]
損失画像圧縮では、画像を特定のビットレートに圧縮しながら、最小限の信号歪みを実現する。
画像圧縮と視覚解析のギャップを埋めるために、損失画像圧縮のためのRDCモデルを提案する。
論文 参考訳(メタデータ) (2024-05-06T14:11:36Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。