論文の概要: Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach
- arxiv url: http://arxiv.org/abs/2412.17477v1
- Date: Mon, 23 Dec 2024 11:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:56:33.650871
- Title: Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach
- Title(参考訳): 圧縮画像に対する満足度と機械比の予測:統一的アプローチ
- Authors: Qi Zhang, Shanshe Wang, Xinfeng Zhang, Siwei Ma, Jingshan Pan, Wen Gao,
- Abstract要約: 圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 58.71009078356928
- License:
- Abstract: Nowadays, high-quality images are pursued by both humans for better viewing experience and by machines for more accurate visual analysis. However, images are usually compressed before being consumed, decreasing their quality. It is meaningful to predict the perceptual quality of compressed images for both humans and machines, which guides the optimization for compression. In this paper, we propose a unified approach to address this. Specifically, we create a deep learning-based model to predict Satisfied User Ratio (SUR) and Satisfied Machine Ratio (SMR) of compressed images simultaneously. We first pre-train a feature extractor network on a large-scale SMR-annotated dataset with human perception-related quality labels generated by diverse image quality models, which simulates the acquisition of SUR labels. Then, we propose an MLP-Mixer-based network to predict SUR and SMR by leveraging and fusing the extracted multi-layer features. We introduce a Difference Feature Residual Learning (DFRL) module to learn more discriminative difference features. We further use a Multi-Head Attention Aggregation and Pooling (MHAAP) layer to aggregate difference features and reduce their redundancy. Experimental results indicate that the proposed model significantly outperforms state-of-the-art SUR and SMR prediction methods. Moreover, our joint learning scheme of human and machine perceptual quality prediction tasks is effective at improving the performance of both.
- Abstract(参考訳): 現在、高品質の画像は、より良い視聴体験のために人間とより正確な視覚分析のために機械の両方によって追求されている。
しかし、画像は通常、消費される前に圧縮され、品質が低下する。
人間と機械の両方で圧縮された画像の知覚品質を予測することは有意義であり、圧縮の最適化を導く。
本稿では,この問題に対処するための統一的なアプローチを提案する。
具体的には、圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを作成する。
まず,SURラベルの取得をシミュレートした画像品質モデルを用いて,人間の知覚関連品質ラベルを付加した大規模SMRアノテートデータセット上で特徴抽出ネットワークを事前学習する。
次に,抽出した多層構造を利用してSURとSMRを予測するMLP-Mixerネットワークを提案する。
そこで我々はDFRLモジュールを導入し,より識別的な特徴を学習する。
さらに,MHAAP(Multi-Head Attention Aggregation and Pooling)層を用いて,特徴の差分を集約し,冗長性を低減する。
実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
さらに,人間と機械の知覚品質予測タスクの協調学習手法は,両者の性能向上に有効である。
関連論文リスト
- GAN-based Image Compression with Improved RDO Process [20.00340507091567]
速度歪みの最適化を改良した新しいGANベースの画像圧縮手法を提案する。
これを実現するために、DisTSとMS-SSIMのメトリクスを用いて、色、テクスチャ、構造における知覚的変性を測定する。
提案手法は,既存のGAN法および最先端ハイブリッド(VVC)よりも優れている。
論文 参考訳(メタデータ) (2023-06-18T03:21:11Z) - Deep Optimal Transport: A Practical Algorithm for Photo-realistic Image Restoration [31.58365182858562]
事前学習したモデルの知覚的品質および/または平均二乗誤差(MSE)を制御できる画像復元アルゴリズムを提案する。
モデルによって復元された約1ダースの画像を考えると、新たな画像に対するモデルの知覚的品質と/またはMSEを、それ以上の訓練をすることなく大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-04T12:21:53Z) - Machine Perception-Driven Image Compression: A Layered Generative
Approach [32.23554195427311]
階層型生成画像圧縮モデルを提案する。
タスクに依存しない学習に基づく圧縮モデルを提案し、様々な圧縮されたドメインベースの分析タスクを効果的にサポートする。
圧縮比、再構成画像品質、下流知覚性能の最良のバランス点を得るために、共同最適化スケジュールを採用する。
論文 参考訳(メタデータ) (2023-04-14T02:12:38Z) - Perceptual Video Coding for Machines via Satisfied Machine Ratio
Modeling [66.56355316611598]
Satisfied Machine Ratio (SMR) は、圧縮された画像やビデオの知覚的品質を評価するメトリクスである。
SMRは機械の知覚的コーディングを可能にし、機械のためのビデオ符号化を特異性から一般性まで推進する。
論文 参考訳(メタデータ) (2022-11-13T03:16:36Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - HLIC: Harmonizing Optimization Metrics in Learned Image Compression by
Reinforcement Learning [5.943388055895372]
ピーク信号対雑音比(PSNR)とマルチスケール構造類似度(MS-SSIM)は、最も人気のある評価指標である。
本稿では,強化学習によるオンライン損失関数適応を用いた学習画像圧縮(HLIC)における最適化指標の調和化を提案する。
論文 参考訳(メタデータ) (2021-09-30T06:01:57Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。