Fugu-MT 論文翻訳(概要): Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression

論文の概要: Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression

arxiv url: http://arxiv.org/abs/2401.14007v2
Date: Fri, 25 Oct 2024 07:08:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.429434
Title: Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression
Title（参考訳）: 高忠実性ニューラル画像圧縮のための意味的アンサンブル損失と潜時再構成
Authors: Daxin Li, Yuanchao Bai, Kai Wang, Junjun Jiang, Xianming Liu,
Abstract要約: 本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
参考スコア（独自算出の注目度）: 58.618625678054826
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in neural compression have surpassed traditional codecs in PSNR and MS-SSIM measurements. However, at low bit-rates, these methods can introduce visually displeasing artifacts, such as blurring, color shifting, and texture loss, thereby compromising perceptual quality of images. To address these issues, this study presents an enhanced neural compression method designed for optimal visual fidelity. We have trained our model with a sophisticated semantic ensemble loss, integrating Charbonnier loss, perceptual loss, style loss, and a non-binary adversarial loss, to enhance the perceptual quality of image reconstructions. Additionally, we have implemented a latent refinement process to generate content-aware latent codes. These codes adhere to bit-rate constraints, balance the trade-off between distortion and fidelity, and prioritize bit allocation to regions of greater importance. Our empirical findings demonstrate that this approach significantly improves the statistical fidelity of neural image compression. On CLIC2024 validation set, our approach achieves a 62% bitrate saving compared to MS-ILLM under FID metric.
Abstract（参考訳）: ニューラル圧縮の最近の進歩は、PSNRおよびMS-SSIM測定において従来のコーデックを上回っている。しかし、低ビットレートでは、ぼかし、色ずれ、テクスチャ損失などの視覚的に不快なアーティファクトを導入し、画像の品質を損なうことができる。これらの課題に対処するために、最適な視覚的忠実度を設計した改良型ニューラル圧縮法を提案する。我々は,画像再構成の知覚的品質を高めるため,洗練された意味的アンサンブルの喪失,シャルボニエの喪失,知覚的損失,スタイル的損失,非バイナリ的対角的損失を訓練した。さらに,コンテンツ認識型潜時符号を生成するために潜時修正処理を実装した。これらの符号はビットレートの制約に準拠し、歪みと忠実性のトレードオフをバランスさせ、より重要な領域へのビット割り当てを優先する。実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。 CLIC2024 の検証セットでは,FID による MS-ILLM と比較して 62% のビットレート削減を実現している。

関連論文リスト

Higher fidelity perceptual image and video compression with a latent conditioned residual denoising diffusion model [55.2480439325792]
本稿では,認知品質に最適化されたハイブリッド圧縮方式を提案し,CDCモデルのアプローチをデコーダネットワークで拡張する。 CDCと比較した場合,LPIPSとFIDの知覚スコアを比較検討しながら,最大2dBPSNRの忠実度向上を実現した。
論文参考訳（メタデータ） (2025-05-19T14:13:14Z)
CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文参考訳（メタデータ） (2024-12-23T10:41:18Z)
Enhancing Perception Quality in Remote Sensing Image Compression via Invertible Neural Network [10.427300958330816]
リモートセンシング画像をデコードして、特に低解像度で高い知覚品質を実現することは、依然として大きな課題である。 Invertible Neural Network-based Remote Sensor Image compression (INN-RSIC)法を提案する。我々の INN-RSIC は、認識品質の観点から、既存の最先端のディープラーニングベースの画像圧縮手法よりも優れています。
論文参考訳（メタデータ） (2024-05-17T03:52:37Z)
Neural Image Compression with Quantization Rectifier [7.097091519502871]
我々は,画像特徴相関を利用した画像圧縮のための新しい量子化法(QR)を開発し,量子化の影響を緩和する。提案手法は,量子化された特徴量から未知の特徴量を予測するニューラルネットワークアーキテクチャを設計する。評価では、QRを最先端のニューラルイメージコーデックに統合し、広く使用されているKodakベンチマークの強化モデルとベースラインを比較する。
論文参考訳（メタデータ） (2024-03-25T22:26:09Z)
Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。 VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文参考訳（メタデータ） (2023-07-17T06:14:19Z)
You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。 licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文参考訳（メタデータ） (2023-06-27T15:36:22Z)
Neural JPEG: End-to-End Image Compression Leveraging a Standard JPEG Encoder-Decoder [73.48927855855219]
本稿では,エンコーダとデコーダの両端に内在するニューラル表現を強化することで,符号化性能の向上を図るシステムを提案する。実験により,提案手法はJPEGに対する速度歪み性能を,様々な品質指標で改善することを示した。
論文参考訳（メタデータ） (2022-01-27T20:20:03Z)
Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文参考訳（メタデータ） (2021-12-08T13:02:53Z)
Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文参考訳（メタデータ） (2020-07-03T14:33:28Z)
Attention Based Real Image Restoration [48.933507352496726]
深層畳み込みニューラルネットワークは、合成劣化を含む画像に対してより良い性能を発揮する。本稿では,新しい1段ブラインド実画像復元ネットワーク(R$2$Net)を提案する。
論文参考訳（メタデータ） (2020-04-26T04:21:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。