論文の概要: Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression
- arxiv url: http://arxiv.org/abs/2401.14007v1
- Date: Thu, 25 Jan 2024 08:11:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 15:21:44.337343
- Title: Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural
Image Compression
- Title(参考訳): 高忠実性ニューラル画像圧縮のための意味的アンサンブル損失と潜時再構成
- Authors: Daxin Li, Yuanchao Bai, Kai Wang, Junjun Jiang, Xianming Liu
- Abstract要約: 本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
- 参考スコア(独自算出の注目度): 62.888755394395716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in neural compression have surpassed traditional codecs
in PSNR and MS-SSIM measurements. However, at low bit-rates, these methods can
introduce visually displeasing artifacts, such as blurring, color shifting, and
texture loss, thereby compromising perceptual quality of images. To address
these issues, this study presents an enhanced neural compression method
designed for optimal visual fidelity. We have trained our model with a
sophisticated semantic ensemble loss, integrating Charbonnier loss, perceptual
loss, style loss, and a non-binary adversarial loss, to enhance the perceptual
quality of image reconstructions. Additionally, we have implemented a latent
refinement process to generate content-aware latent codes. These codes adhere
to bit-rate constraints, balance the trade-off between distortion and fidelity,
and prioritize bit allocation to regions of greater importance. Our empirical
findings demonstrate that this approach significantly improves the statistical
fidelity of neural image compression. On CLIC2024 validation set, our approach
achieves a 62% bitrate saving compared to MS-ILLM under FID metric.
- Abstract(参考訳): ニューラル圧縮の最近の進歩は、PSNRおよびMS-SSIM測定において従来のコーデックを上回っている。
しかし、低ビットレートでは、ぼかし、色ずれ、テクスチャ損失などの視覚的に不快なアーティファクトを導入し、画像の品質を損なうことができる。
この問題に対処するため,本研究では,視覚の忠実度を最適なものにするための拡張型ニューラル圧縮法を提案する。
画像再構成の知覚的品質を向上させるために,charbonnier損失,知覚的損失,スタイル損失,非バイナリ的敵対的損失を統合し,高度な意味的アンサンブル損失でモデルを訓練した。
さらに,コンテンツ認識可能な潜在コードを生成するために,潜在改良プロセスを実装した。
これらの符号はビットレートの制約に準拠し、歪みと忠実度の間のトレードオフをバランスさせ、より重要な領域にビット割り当てを優先する。
実験結果から,このアプローチは,神経画像圧縮の統計的忠実性を大幅に向上させることが示された。
CLIC2024 の検証セットでは,FID による MS-ILLM と比較して 62% のビットレート削減を実現している。
関連論文リスト
- Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network [10.427300958330816]
リモートセンシング画像をデコードして、特に低解像度で高い知覚品質を実現することは、依然として大きな課題である。
Invertible Neural Network-based Remote Sensor Image compression (INN-RSIC)法を提案する。
我々の INN-RSIC は、認識品質の観点から、既存の最先端のディープラーニングベースの画像圧縮手法よりも優れています。
論文 参考訳(メタデータ) (2024-05-17T03:52:37Z) - Neural Image Compression with Quantization Rectifier [7.097091519502871]
我々は,画像特徴相関を利用した画像圧縮のための新しい量子化法(QR)を開発し,量子化の影響を緩和する。
提案手法は,量子化された特徴量から未知の特徴量を予測するニューラルネットワークアーキテクチャを設計する。
評価では、QRを最先端のニューラルイメージコーデックに統合し、広く使用されているKodakベンチマークの強化モデルとベースラインを比較する。
論文 参考訳(メタデータ) (2024-03-25T22:26:09Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG
Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。
実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文 参考訳(メタデータ) (2022-01-27T20:20:03Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Attention Based Real Image Restoration [48.933507352496726]
深層畳み込みニューラルネットワークは、合成劣化を含む画像に対してより良い性能を発揮する。
本稿では,新しい1段ブラインド実画像復元ネットワーク(R$2$Net)を提案する。
論文 参考訳(メタデータ) (2020-04-26T04:21:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。