論文の概要: Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion
- arxiv url: http://arxiv.org/abs/2412.00505v1
- Date: Sat, 30 Nov 2024 15:05:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:42:50.231532
- Title: Good, Cheap, and Fast: Overfitted Image Compression with Wasserstein Distortion
- Title(参考訳): 良い、速い、速い:Wasserstein歪曲による過度な画像圧縮
- Authors: Jona Ballé, Luca Versari, Emilien Dupont, Hyunjik Kim, Matthias Bauer,
- Abstract要約: データ分布よりも視覚知覚のモデル化に焦点をあてることで、視覚品質とビットレートのトレードオフをうまく達成できることを示す。
我々は、Wasserstein Distortion (WD) に対して、過度に適合した画像であるC3を最適化し、人間のレーダによる画像再構成を評価する。
- 参考スコア(独自算出の注目度): 13.196774986841469
- License:
- Abstract: Inspired by the success of generative image models, recent work on learned image compression increasingly focuses on better probabilistic models of the natural image distribution, leading to excellent image quality. This, however, comes at the expense of a computational complexity that is several orders of magnitude higher than today's commercial codecs, and thus prohibitive for most practical applications. With this paper, we demonstrate that by focusing on modeling visual perception rather than the data distribution, we can achieve a very good trade-off between visual quality and bit rate similar to "generative" compression models such as HiFiC, while requiring less than 1% of the multiply-accumulate operations (MACs) for decompression. We do this by optimizing C3, an overfitted image codec, for Wasserstein Distortion (WD), and evaluating the image reconstructions with a human rater study. The study also reveals that WD outperforms other perceptual quality metrics such as LPIPS, DISTS, and MS-SSIM, both as an optimization objective and as a predictor of human ratings, achieving over 94% Pearson correlation with Elo scores.
- Abstract(参考訳): 生成画像モデルの成功に触発されて、近年の学習画像圧縮の研究は、自然画像分布のより良い確率モデルに焦点をあてるようになり、画像の品質が向上した。
しかし、これは今日の商用コーデックよりも数桁高い計算複雑性を犠牲にして、ほとんどの実用的なアプリケーションでは禁じられている。
本稿では,データ分布よりも視覚知覚をモデル化することに着目し,HiFiCのような「生成的」圧縮モデルに類似した視覚的品質とビットレートのトレードオフを達成できると同時に,圧縮のために乗算累積演算(MAC)の1%未満を必要としないことを示す。
我々は、Wasserstein Distortion (WD) のための画像コーデックであるC3を最適化し、人間のレーダによる画像再構成を評価する。
また、WDはLPIPS、disTS、MS-SSIMといった他の知覚品質指標よりも、最適化目標と人間の評価の予測指標として優れており、PearsonとEloのスコアとの相関は94%以上であることも明らかにした。
関連論文リスト
- Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-12-23T11:09:30Z) - Robustly overfitting latents for flexible neural image compression [1.7041035606170198]
最先端のニューラルイメージ圧縮モデルは、デコーダに効率的に送信できる量子化潜在表現に画像をエンコードすることを学ぶ。
これらのモデルは実際に成功したが、エンコーダとデコーダの容量が不完全な最適化と制限のため、準最適結果をもたらす。
最近の研究は、Gumbel annealing(SGA)を使用して、トレーニング済みのニューラルイメージ圧縮モデルの潜在性を洗練する方法を示している。
提案手法は,R-Dトレードオフの観点から,前者に比べて圧縮性能が向上することを示す。
論文 参考訳(メタデータ) (2024-01-31T12:32:17Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Improving Statistical Fidelity for Neural Image Compression with
Implicit Local Likelihood Models [31.308949268401047]
ロスシー画像圧縮は、オリジナルへの忠実さを維持しながら、可能な限り数ビットで画像を表現することを目的としている。
VQ-VAEオートエンコーダを用いて得られた局所像の量子化を条件とした非バイナリ判別器を提案する。
論文 参考訳(メタデータ) (2023-01-26T15:55:43Z) - High-Fidelity Variable-Rate Image Compression via Invertible Activation
Transformation [24.379052026260034]
Invertible Activation Transformation (IAT) モジュールを提案する。
IATとQLevelは、画像圧縮モデルに、画像の忠実さを良く保ちながら、細かな可変レート制御能力を与える。
提案手法は,特に複数再符号化後に,最先端の可変レート画像圧縮法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2022-09-12T07:14:07Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z) - Early Exit or Not: Resource-Efficient Blind Quality Enhancement for
Compressed Images [54.40852143927333]
ロスシー画像圧縮は、通信帯域を節約するために広範に行われ、望ましくない圧縮アーティファクトをもたらす。
圧縮画像に対する資源効率の高いブラインド品質向上手法(RBQE)を提案する。
提案手法は, 評価された画像の品質に応じて, 自動的にエンハンスメントを終了するか, 継続するかを決定することができる。
論文 参考訳(メタデータ) (2020-06-30T07:38:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。