論文の概要: Super-High-Fidelity Image Compression via Hierarchical-ROI and Adaptive Quantization
- arxiv url: http://arxiv.org/abs/2403.13030v1
- Date: Tue, 19 Mar 2024 04:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 20:59:01.726247
- Title: Super-High-Fidelity Image Compression via Hierarchical-ROI and Adaptive Quantization
- Title(参考訳): 階層ROIと適応量子化による超高忠実画像圧縮
- Authors: Jixiang Luo, Yan Wang, Hongwei Qin,
- Abstract要約: 関心領域(ROI)を利用したMSEモデルと生成モデルを組み合わせる。
顔,テキスト,複雑なテクスチャを含む領域の再構成を改善するために,H-ROIを用いて複数の前景領域と1つの背景領域に分割する。
また、チャネル次元内における非線形マッピングによる適応量子化を提案し、視覚的品質を維持しながらビットレートを制約する。
- 参考スコア(独自算出の注目度): 12.089893856103062
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned Image Compression (LIC) has achieved dramatic progress regarding objective and subjective metrics. MSE-based models aim to improve objective metrics while generative models are leveraged to improve visual quality measured by subjective metrics. However, they all suffer from blurring or deformation at low bit rates, especially at below $0.2bpp$. Besides, deformation on human faces and text is unacceptable for visual quality assessment, and the problem becomes more prominent on small faces and text. To solve this problem, we combine the advantage of MSE-based models and generative models by utilizing region of interest (ROI). We propose Hierarchical-ROI (H-ROI), to split images into several foreground regions and one background region to improve the reconstruction of regions containing faces, text, and complex textures. Further, we propose adaptive quantization by non-linear mapping within the channel dimension to constrain the bit rate while maintaining the visual quality. Exhaustive experiments demonstrate that our methods achieve better visual quality on small faces and text with lower bit rates, e.g., $0.7X$ bits of HiFiC and $0.5X$ bits of BPG.
- Abstract(参考訳): 学習された画像圧縮(lic)は、客観的および主観的メトリクスに関して劇的な進歩を遂げた。
MSEベースのモデルは客観的メトリクスを改善することを目的としており、生成モデルは主観的メトリクスによって測定された視覚的品質を改善するために活用される。
しかし、いずれも低ビットレートで、特に0.2bpp$以下のぼやけや変形に悩まされている。
さらに、人間の顔やテキストの変形は視覚的品質評価には受け入れられず、小さな顔やテキストではより顕著になる。
この問題を解決するために、関心領域(ROI)を利用して、MSEベースのモデルと生成モデルの利点を組み合わせる。
本研究では,顔,テキスト,複雑なテクスチャを含む領域の再構成を改善するために,画像を複数の前景領域と1つの背景領域に分割する階層ROI(H-ROI)を提案する。
さらに、チャネル次元内における非線形マッピングによる適応量子化を提案し、視覚的品質を維持しながらビットレートを制約する。
提案手法は,HiFiCの0.7X$ビット,BPGの0.5X$ビットなど,低ビットレートの小さな顔やテキストに対して,より視覚的品質が得られることを示す。
関連論文リスト
- $R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement [5.810659946867557]
Neural Radiance Fields (NeRF)に基づくメッシュ再構成は、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。
マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。
本手法は,メッシュレンダリングの品質と幾何学的品質の両方において,高い競争力とロバストな性能を提供する。
論文 参考訳(メタデータ) (2024-08-19T16:33:17Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Rank-based No-reference Quality Assessment for Face Swapping [88.53827937914038]
顔スワップ法における品質測定の基準は、操作された画像とソース画像の間のいくつかの距離に依存する。
顔スワップ用に設計された新しい非参照画像品質評価法(NR-IQA)を提案する。
論文 参考訳(メタデータ) (2024-06-04T01:36:29Z) - MetaF2N: Blind Image Super-Resolution by Learning Efficient Model
Adaptation from Faces [51.42949911178461]
メタ学習フレームワークにおいて,自然画像全体に対応するためのモデルパラメータを微調整するメタF2Nという手法を提案する。
復元された顔と接地構造とのギャップを考慮すると,低信頼領域の影響を低減するために,異なる位置における損失重みを適応的に予測するMaskNetを配置する。
論文 参考訳(メタデータ) (2023-09-15T02:45:21Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - AdaFace: Quality Adaptive Margin for Face Recognition [56.99208144386127]
本稿では、損失関数、すなわち画像品質における適応性の別の側面を紹介する。
そこで本稿では,画像品質に基づいて異なる難易度を示す新たな損失関数を提案する。
提案手法は,4つのデータセット上でのSoTA(State-of-the-art)による顔認識性能を向上させる。
論文 参考訳(メタデータ) (2022-04-03T01:23:41Z) - MUSIQ: Multi-scale Image Quality Transformer [22.908901641767688]
現在のIQA法は畳み込みニューラルネットワーク(CNN)に基づいている
マルチスケール画像品質変換器(MUSIQ)を設計し,サイズやアスペクト比の異なるネイティブ解像度画像を処理する。
提案手法は,マルチスケールの画像表現により,様々な粒度で画像品質を捉えることができる。
論文 参考訳(メタデータ) (2021-08-12T23:36:22Z) - Deep Tiny Network for Recognition-Oriented Face Image Quality Assessment [26.792481400792376]
多くの顔認識(FR)のシナリオでは、顔画像は大きな変分を含むシーケンスから取得される。
本稿では、画像品質評価(IQA)とFRを直接リンクするFRの非参照画像品質評価を行う。
提案した品質測定に基づいて,データから品質予測関数を学習する深層顔品質ネットワーク(tinyFQnet)を提案する。
論文 参考訳(メタデータ) (2021-06-09T07:20:54Z) - Visual Analysis Motivated Rate-Distortion Model for Image Coding [34.76677294980739]
本稿では,VVC(Versatile Video Coding)イントラ圧縮のための視覚解析によるレート歪みモデルを提案する。
提案モデルには,新しいレート割当戦略と新しい歪み測定モデルという2つの大きな貢献がある。
論文 参考訳(メタデータ) (2021-04-21T02:27:34Z) - Perceptually Optimizing Deep Image Compression [53.705543593594285]
平均二乗誤差(MSE)と$ell_p$ノルムは、ニューラルネットワークの損失の測定で大きく支配されている。
本稿では,定量的知覚モデルに対して,画像解析ネットワークを最適化するための異なるプロキシ手法を提案する。
論文 参考訳(メタデータ) (2020-07-03T14:33:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。