論文の概要: Do image and video quality metrics model low-level human vision?
- arxiv url: http://arxiv.org/abs/2503.16264v1
- Date: Thu, 20 Mar 2025 15:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 22:26:53.782876
- Title: Do image and video quality metrics model low-level human vision?
- Title(参考訳): 画像とビデオの品質メトリクスは低レベルの人間の視覚をモデル化するか?
- Authors: Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk,
- Abstract要約: 低レベルの人間の視力のいくつかの側面をモデル化する能力について検討する。
私たちはテストを使って、33の既存の画像およびビデオ品質メトリクスを分析し、その長所と短所を見つけます。
- 参考スコア(独自算出の注目度): 4.957424711282532
- License:
- Abstract: Image and video quality metrics, such as SSIM, LPIPS, and VMAF, are aimed to predict the perceived quality of the evaluated content and are often claimed to be "perceptual". Yet, few metrics directly model human visual perception, and most rely on hand-crafted formulas or training datasets to achieve alignment with perceptual data. In this paper, we propose a set of tests for full-reference quality metrics that examine their ability to model several aspects of low-level human vision: contrast sensitivity, contrast masking, and contrast matching. The tests are meant to provide additional scrutiny for newly proposed metrics. We use our tests to analyze 33 existing image and video quality metrics and find their strengths and weaknesses, such as the ability of LPIPS and MS-SSIM to predict contrast masking and poor performance of VMAF in this task. We further find that the popular SSIM metric overemphasizes differences in high spatial frequencies, but its multi-scale counterpart, MS-SSIM, addresses this shortcoming. Such findings cannot be easily made using existing evaluation protocols.
- Abstract(参考訳): SSIM、LPIPS、VMAFなどの画像やビデオの品質指標は、評価されたコンテンツの質を予測することを目的としており、しばしば「知覚的」であると主張される。
しかし、人間の視覚的知覚を直接モデル化するメトリクスはほとんどなく、ほとんどの場合、知覚データとの整合性を達成するために手作りの式やトレーニングデータセットに依存している。
本稿では、コントラスト感度、コントラストマスキング、コントラストマッチングといった、低レベルの人間の視覚の様々な側面をモデル化する能力を評価するための、フル参照品質指標のセットを提案する。
テストは、新しく提案されたメトリクスに対するさらなる精査を提供することを目的としている。
我々は,既存の画像および映像品質の指標33点を分析し,LPIPSやMS-SSIMによるコントラストマスキングの予測やVMAFの性能低下など,その長所と短所を見出した。
さらに、一般的なSSIMは高空間周波数の差を過度に強調するが、マルチスケールのMS-SSIMはこの問題に対処する。
このような知見は,既存の評価プロトコルでは容易には得られない。
関連論文リスト
- Human Re-ID Meets LVLMs: What can we expect? [14.370360290704197]
人間の再識別作業における主要な視覚言語モデルの性能を比較した。
以上の結果から,LVLMの強度は確認できたが,破滅的な回答につながる場合が多い。
論文 参考訳(メタデータ) (2025-01-30T19:00:40Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Global-Local Image Perceptual Score (GLIPS): Evaluating Photorealistic Quality of AI-Generated Images [0.7499722271664147]
GLIPS(Global-Local Image Perceptual Score)は、AI生成画像の写実的画像品質を評価するために設計された画像メトリクスである。
様々な生成モデルにわたる総合的なテストは、GLIPSが人間のスコアと相関する点において、FID、SSIM、MS-SSIMといった既存の指標を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-15T15:19:23Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文 参考訳(メタデータ) (2024-03-19T15:07:08Z) - Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - Perceptual Quality Assessment of NeRF and Neural View Synthesis Methods
for Front-Facing Views [10.565297375544414]
本研究は,NVSおよびNeRFの知覚的評価に関する最初の研究である。
NVS法により合成されたビデオの品質を,よく制御された知覚品質評価実験で測定した。
論文 参考訳(メタデータ) (2023-03-24T11:53:48Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - Surveillance Face Anti-spoofing [81.50018853811895]
Face Anti-Spoofing (FAS) は、様々な物理的攻撃から顔認識システムを保護するために不可欠である。
本稿では,画像品質による性能劣化を軽減するために,コントラスト品質不変学習(CQIL)ネットワークを提案する。
多くの実験がSuHiFiMaskデータセットの品質と提案したCQILの優位性を検証する。
論文 参考訳(メタデータ) (2023-01-03T07:09:57Z) - A study of deep perceptual metrics for image quality assessment [3.254879465902239]
我々は、画像品質評価(IQA)タスクに取り組むために、ディープニューラルネットワークに基づく知覚メトリクスについて検討する。
異なる解像度で知覚情報を集約できる多分解能知覚距離(MR-Perceptual)を提案する。
論文 参考訳(メタデータ) (2022-02-17T14:52:53Z) - A Shift-insensitive Full Reference Image Quality Assessment Model Based
on Quadratic Sum of Gradient Magnitude and LOG signals [7.0736273644584715]
本研究では,GMとLOG信号の2次和を用いたFR-IQAモデルを提案する。
実験の結果,提案モデルは3つの大規模主観的IQAデータベース上で堅牢に動作することがわかった。
論文 参考訳(メタデータ) (2020-12-21T17:41:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。