論文の概要: GANCompress: GAN-Enhanced Neural Image Compression with Binary Spherical Quantization
- arxiv url: http://arxiv.org/abs/2505.13542v1
- Date: Mon, 19 May 2025 00:18:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.383988
- Title: GANCompress: GAN-Enhanced Neural Image Compression with Binary Spherical Quantization
- Title(参考訳): GANCompress: 2次元球面量子化によるGAN強調ニューラルイメージ圧縮
- Authors: Karthik Sivakoti,
- Abstract要約: GANCompressは、二元球量子化(BSQ)とGAN(Generative Adversarial Networks)を組み合わせた新しいニューラル圧縮フレームワークである。
GANCompressは圧縮効率を大幅に向上し、ファイルサイズを最大100倍まで削減し、視覚的歪みを最小限に抑える。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The exponential growth of visual data in digital communications has intensified the need for efficient compression techniques that balance rate-distortion performance with computational feasibility. While recent neural compression approaches have shown promise, they still struggle with fundamental challenges: preserving perceptual quality at high compression ratios, computational efficiency, and adaptability to diverse visual content. This paper introduces GANCompress, a novel neural compression framework that synergistically combines Binary Spherical Quantization (BSQ) with Generative Adversarial Networks (GANs) to address these challenges. Our approach employs a transformer-based autoencoder with an enhanced BSQ bottleneck that projects latent representations onto a hypersphere, enabling efficient discretization with bounded quantization error. This is followed by a specialized GAN architecture incorporating frequency-domain attention and color consistency optimization. Experimental results demonstrate that GANCompress achieves substantial improvement in compression efficiency -- reducing file sizes by up to 100x with minimal visual distortion. Our method outperforms traditional codecs like H.264 by 12-15% in perceptual metrics while maintaining comparable PSNR/SSIM values, with 2.4x faster encoding and decoding speeds. On standard benchmarks including ImageNet-1k and COCO2017, GANCompress sets a new state-of-the-art, reducing FID from 0.72 to 0.41 (43% improvement) compared to previous methods while maintaining higher throughput. This work presents a significant advancement in neural compression technology with promising applications for real-time visual communication systems.
- Abstract(参考訳): デジタル通信における視覚データの指数関数的増加は、計算可能性とのバランスをとる効率的な圧縮技術の必要性を増している。
最近のニューラル圧縮アプローチは、将来性を示す一方で、高い圧縮比での知覚品質の保存、計算効率、多様な視覚コンテンツへの適応性といった、基本的な課題に苦慮している。
本稿では,2次元球面量子化(BSQ)とGAN(Generative Adversarial Networks)を相乗的に組み合わせ,これらの課題に対処する新しいニューラル圧縮フレームワークであるGANCompressを紹介する。
提案手法では,超球面上に潜在表現を投影し,有界量子化誤差による効率的な離散化を可能にする,拡張されたBSQボトルネックを持つトランスフォーマーベースのオートエンコーダを用いる。
これに続いて、周波数領域の注意と色一貫性の最適化を取り入れた特殊なGANアーキテクチャが導入された。
実験の結果、GANCompressは圧縮効率を大幅に改善し、ファイルサイズを最大100倍まで削減し、視覚的歪みを最小限に抑えることができた。
提案手法は,PSNR/SSIM値に匹敵する性能を維持しつつ,H.264のような従来のコーデックを12-15%向上させ,符号化速度と復号速度を2.4倍に向上させる。
ImageNet-1k や COCO2017 などの標準ベンチマークでは、GANCompress は新しい最先端を設定しており、高いスループットを維持しながら、以前の方法と比較して FID を 0.72 から 0.41 に削減した(43%の改善)。
この研究は、リアルタイム視覚通信システムに期待できる応用で、ニューラル圧縮技術の大幅な進歩を示す。
関連論文リスト
- Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - ConvNeXt-ChARM: ConvNeXt-based Transform for Efficient Neural Image
Compression [18.05997169440533]
ConvNeXt-ChARMは,効率的なConvNeXtベースのトランスフォーメーションコーディングフレームワークである。
ConvNeXt-ChARMは、VVC参照エンコーダ(VTM-18.0)と最先端の学習画像圧縮手法であるSwinT-ChARMに対して、平均5.24%と1.22%と、一貫したBDレート(PSNR)の低下をもたらすことを示した。
論文 参考訳(メタデータ) (2023-07-12T11:45:54Z) - Joint Hierarchical Priors and Adaptive Spatial Resolution for Efficient
Neural Image Compression [11.25130799452367]
ニューラル画像圧縮(NIC)のための絶対画像圧縮変換器(ICT)を提案する。
ICTは、潜在表現からグローバルコンテキストとローカルコンテキストの両方をキャプチャし、量子化された潜在表現の分布をパラメータ化する。
我々のフレームワークは、多目的ビデオ符号化(VVC)参照符号化(VTM-18.0)とニューラルスウィンT-ChARMに対する符号化効率とデコーダ複雑性のトレードオフを大幅に改善する。
論文 参考訳(メタデータ) (2023-07-05T13:17:14Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。