論文の概要: Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2411.12791v1
- Date: Tue, 19 Nov 2024 15:00:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:09:58.130839
- Title: Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment
- Title(参考訳): 知覚バイアスの緩和:画像品質評価のためのLMMの訓練不要アプローチ
- Authors: Siyi Pan, Baoliang Chen, Danni Huang, Hanwei Zhu, Lingyu Zhu, Xiangjie Sui, Shiqi Wang,
- Abstract要約: 画像品質評価のためのトレーニング不要な脱バイアスフレームワークを提案する。
まず,画像品質を著しく劣化させる意味保存歪みについて検討する。
次に、これらの特定の歪みをクエリやテストイメージに適用します。
品質推測の間、クエリ画像とそれに対応する劣化バージョンの両方をLMMに供給する。
劣化した画像は、セマンティックな違いに関わらず、常に品質が劣っていると評価される。
- 参考スコア(独自算出の注目度): 18.622560025505233
- License:
- Abstract: Despite the impressive performance of large multimodal models (LMMs) in high-level visual tasks, their capacity for image quality assessment (IQA) remains limited. One main reason is that LMMs are primarily trained for high-level tasks (e.g., image captioning), emphasizing unified image semantics extraction under varied quality. Such semantic-aware yet quality-insensitive perception bias inevitably leads to a heavy reliance on image semantics when those LMMs are forced for quality rating. In this paper, instead of retraining or tuning an LMM costly, we propose a training-free debiasing framework, in which the image quality prediction is rectified by mitigating the bias caused by image semantics. Specifically, we first explore several semantic-preserving distortions that can significantly degrade image quality while maintaining identifiable semantics. By applying these specific distortions to the query or test images, we ensure that the degraded images are recognized as poor quality while their semantics remain. During quality inference, both a query image and its corresponding degraded version are fed to the LMM along with a prompt indicating that the query image quality should be inferred under the condition that the degraded one is deemed poor quality.This prior condition effectively aligns the LMM's quality perception, as all degraded images are consistently rated as poor quality, regardless of their semantic difference.Finally, the quality scores of the query image inferred under different prior conditions (degraded versions) are aggregated using a conditional probability model. Extensive experiments on various IQA datasets show that our debiasing framework could consistently enhance the LMM performance and the code will be publicly available.
- Abstract(参考訳): 高レベル視覚タスクにおける大型マルチモーダルモデル(LMM)の印象的な性能にもかかわらず、画像品質評価(IQA)の能力は依然として限られている。
主な理由は、LMMが主に高レベルなタスク(例えば、画像キャプション)のために訓練されており、様々な品質で画像セマンティクスを抽出することを強調することである。
このようなセマンティック・アウェアで品質に敏感な知覚バイアスは、品質評価のためにこれらのLMMを強制した場合、必然的にイメージセマンティクスに大きく依存する。
本稿では,LMMの再トレーニングやチューニングをコストで行う代わりに,画像意味論によるバイアスを軽減することにより,画像品質の予測を補正する,トレーニング不要なデバイアス化フレームワークを提案する。
具体的には、まず、画像の質を著しく劣化させつつ、識別可能な意味を保ちながら、いくつかの意味保存歪みについて検討する。
これらの特定の歪みをクエリやテスト画像に適用することにより、劣化した画像は、セマンティクスが残っている間、品質が劣っていると認識されることが保証される。
品質推測において、クエリ画像とそれに対応する劣化バージョンの両方をLMMに供給し、劣化した画像の品質が劣っていると判断された条件下で、クエリ画像の品質を推測すべきであることを示すとともに、その先行条件は、すべての劣化画像が意味的差にかかわらず一貫して品質として評価されるため、LMMの品質知覚を効果的に整合させ、最終的に、異なる事前条件(劣化バージョン)で推定されたクエリ画像の品質スコアを条件付き確率モデルを用いて集約する。
さまざまなIQAデータセットに対する大規模な実験は、私たちのデバイアスフレームワークが一貫してLMMのパフォーマンスを向上し、コードが公開されることを示している。
関連論文リスト
- Descriptive Image Quality Assessment in the Wild [25.503311093471076]
VLMに基づく画像品質評価(IQA)は、画像品質を言語的に記述し、人間の表現に合わせることを目指している。
野生における画像品質評価(DepictQA-Wild)について紹介する。
本手法は,評価タスクと比較タスク,簡潔かつ詳細な応答,完全参照,非参照シナリオを含む多機能IQAタスクパラダイムを含む。
論文 参考訳(メタデータ) (2024-05-29T07:49:15Z) - Dual-Branch Network for Portrait Image Quality Assessment [76.27716058987251]
ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。
我々は2つのバックボーンネットワーク(textiti.e., Swin Transformer-B)を使用して、肖像画全体と顔画像から高品質な特徴を抽出する。
我々は、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉えている。
論文 参考訳(メタデータ) (2024-05-14T12:43:43Z) - Reference-Free Image Quality Metric for Degradation and Reconstruction Artifacts [2.5282283486446753]
品質要因予測器(QF)と呼ばれる基準のない品質評価ネットワークを開発する。
我々のQF予測器は7層からなる軽量で完全な畳み込みネットワークである。
JPEG圧縮画像パッチを入力としてランダムQFを受信し、対応するQFを正確に予測するように訓練する。
論文 参考訳(メタデータ) (2024-05-01T22:28:18Z) - VisualCritic: Making LMMs Perceive Visual Quality Like Humans [65.59779450136399]
広視野画像の主観的品質評価のための最初のLMMであるVisualCriticを提案する。
VisualCriticは、データセット固有の適応操作を必要とせずに、最初からさまざまなデータにまたがって使用することができる。
論文 参考訳(メタデータ) (2024-03-19T15:07:08Z) - Adaptive Feature Selection for No-Reference Image Quality Assessment by Mitigating Semantic Noise Sensitivity [55.399230250413986]
上流タスクから有害なセマンティックノイズを除去するためのQFM-IQM(Quality-Aware Feature Matching IQA Metric)を提案する。
提案手法は,8つの標準IQAデータセット上での最先端NR-IQA法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2023-12-11T06:50:27Z) - Blind Multimodal Quality Assessment: A Brief Survey and A Case Study of
Low-light Images [73.27643795557778]
ブラインド画像品質評価(BIQA)は、視覚信号の客観的スコアを自動的に正確に予測することを目的としている。
この分野での最近の発展は、ヒトの主観的評価パターンと矛盾しない一助的解によって支配されている。
主観的評価から客観的スコアへの低照度画像の一意なブラインドマルチモーダル品質評価(BMQA)を提案する。
論文 参考訳(メタデータ) (2023-03-18T09:04:55Z) - UNO-QA: An Unsupervised Anomaly-Aware Framework with Test-Time
Clustering for OCTA Image Quality Assessment [4.901218498977952]
光コヒーレンス・トモグラフィ・アンギオグラフィー(OCTA)画像品質評価のためのテスト時間クラスタリングを用いた教師なし異常認識フレームワークを提案する。
OCTA画像の品質を定量化するために,特徴埋め込みに基づく低品質表現モジュールを提案する。
我々は、訓練されたOCTA品質表現ネットワークによって抽出されたマルチスケール画像の特徴の次元削減とクラスタリングを行う。
論文 参考訳(メタデータ) (2022-12-20T18:48:04Z) - Feedback is Needed for Retakes: An Explainable Poor Image Notification
Framework for the Visually Impaired [6.0158981171030685]
筆者らのフレームワークはまず画像の品質を判定し,高品質であると判定された画像のみを用いてキャプションを生成する。
ユーザは、画像品質が低ければ再取り込みする欠陥機能により通知され、このサイクルは、入力画像が高品質であると判断されるまで繰り返される。
論文 参考訳(メタデータ) (2022-11-17T09:22:28Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z) - Perceptual Image Restoration with High-Quality Priori and Degradation
Learning [28.93489249639681]
本モデルは,復元画像と劣化画像の類似度を測定するのに有効であることを示す。
同時修復・拡張フレームワークは,実世界の複雑な分解型によく一般化する。
論文 参考訳(メタデータ) (2021-03-04T13:19:50Z) - Uncertainty-Aware Blind Image Quality Assessment in the Laboratory and
Wild [98.48284827503409]
我々は,テキスト化BIQAモデルを開発し,それを合成的および現実的歪みの両方で訓練するアプローチを提案する。
我々は、多数の画像ペアに対してBIQAのためのディープニューラルネットワークを最適化するために、忠実度損失を用いる。
6つのIQAデータベースの実験は、実験室と野生動物における画像品質を盲目的に評価する学習手法の可能性を示唆している。
論文 参考訳(メタデータ) (2020-05-28T13:35:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。