論文の概要: Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare
- arxiv url: http://arxiv.org/abs/2405.19298v1
- Date: Wed, 29 May 2024 17:26:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:02:26.459331
- Title: Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare
- Title(参考訳): 大規模マルチモーダルモデルを用いた適応画像品質評価
- Authors: Hanwei Zhu, Haoning Wu, Yixuan Li, Zicheng Zhang, Baoliang Chen, Lingyu Zhu, Yuming Fang, Guangtao Zhai, Weisi Lin, Shiqi Wang,
- Abstract要約: 我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
- 参考スコア(独自算出の注目度): 99.57567498494448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent advancements in large multimodal models (LMMs) have significantly improved their abilities in image quality assessment (IQA) relying on absolute quality rating, how to transfer reliable relative quality comparison outputs to continuous perceptual quality scores remains largely unexplored. To address this gap, we introduce Compare2Score-an all-around LMM-based no-reference IQA (NR-IQA) model, which is capable of producing qualitatively comparative responses and effectively translating these discrete comparative levels into a continuous quality score. Specifically, during training, we present to generate scaled-up comparative instructions by comparing images from the same IQA dataset, allowing for more flexible integration of diverse IQA datasets. Utilizing the established large-scale training corpus, we develop a human-like visual quality comparator. During inference, moving beyond binary choices, we propose a soft comparison method that calculates the likelihood of the test image being preferred over multiple predefined anchor images. The quality score is further optimized by maximum a posteriori estimation with the resulting probability matrix. Extensive experiments on nine IQA datasets validate that the Compare2Score effectively bridges text-defined comparative levels during training with converted single image quality score for inference, surpassing state-of-the-art IQA models across diverse scenarios. Moreover, we verify that the probability-matrix-based inference conversion not only improves the rating accuracy of Compare2Score but also zero-shot general-purpose LMMs, suggesting its intrinsic effectiveness.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、絶対品質評価に依存する画像品質評価(IQA)の能力を大幅に向上させているが、信頼性の高い相対品質比較出力を連続的な知覚品質スコアに転送する方法は、まだ明らかになっていない。
このギャップに対処するために、我々は、定性的に比較された応答を生成し、これらの離散的な比較レベルを連続的な品質スコアに効果的に翻訳できる、全周LMMベースのノン参照IQA(NR-IQA)モデルを提案する。
具体的には、トレーニング中に、同一のIQAデータセットの画像を比較することにより、スケールアップ比較命令を生成し、多様なIQAデータセットをより柔軟な統合を可能にする。
確立した大規模トレーニングコーパスを利用して,人間の視覚的品質コンパレータを開発する。
そこで本研究では,2進選択を超越して,複数の事前定義されたアンカー画像に対して,テスト画像が好まれる可能性を計算するソフト比較手法を提案する。
結果の確率行列を最大にすることで、品質スコアをさらに最適化する。
9つのIQAデータセットに対する大規模な実験により、Compare2Scoreは、さまざまなシナリオで最先端のIQAモデルを上回る、単一の画像品質スコアを変換して、トレーニング中にテキスト定義の比較レベルを効果的に橋渡しすることが確認された。
さらに、確率行列に基づく推論変換は、比較2スコアの評価精度を向上するだけでなく、ゼロショット汎用LMMも向上させ、その本質的な効果を示唆する。
関連論文リスト
- Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Pairwise Comparisons Are All You Need [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では、従来のBIQAの制限を回避すべく設計されたペアワイズ比較フレームワークであるPICNIQを紹介する。
PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - Comparison of No-Reference Image Quality Models via MAP Estimation in
Diffusion Latents [99.19391983670569]
NR-IQAモデルは、画像強調のための最大後部推定(MAP)フレームワークにプラグイン可能であることを示す。
異なるNR-IQAモデルは異なる拡張イメージを誘導し、最終的には精神物理学的なテストを受ける。
これにより, NR-IQAモデルの比較を行う新たな計算手法が提案される。
論文 参考訳(メタデータ) (2024-03-11T03:35:41Z) - Towards Open-ended Visual Quality Comparison [87.45004129101089]
我々は、新しい大規模マルチモーダリティモデル(LMM)のエッジを拡張し、視覚的品質比較をオープンエンド設定に進める。
Co-Instructはオープンソースのビジュアル品質比較ツールだ。
我々はCo-Instructが最先端のオープンソースLMMよりも平均30%高い精度で達成できることを実証した。
論文 参考訳(メタデータ) (2024-02-26T15:10:56Z) - Depicting Beyond Scores: Advancing Image Quality Assessment through Multi-modal Language Models [28.194638379354252]
本稿では,従来のスコアベース手法の制約を克服するDepicted Image Quality Assessment法(DepictQA)を提案する。
DepictQAは、マルチモーダルな大規模言語モデルを利用することで、詳細な言語ベースの人間のような画像品質の評価を可能にする。
これらの結果はマルチモーダルIQA法の研究の可能性を示している。
論文 参考訳(メタデータ) (2023-12-14T14:10:02Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Content-Diverse Comparisons improve IQA [23.523537785599913]
画像品質評価(IQA)は人間にとって自然な作業であり、しばしば簡単な作業となるが、タスクの効果的な自動化は依然として困難である。
ディープラーニングコミュニティの最近のメトリクスは、トレーニング中のイメージペアを比較して、PSNRやSSIMといった従来のメトリクスを改善するのが一般的です。
これにより、トレーニング中にモデルが露出する画像ペアの多様性と数を制限する。
本稿では、これらの比較とコンテンツ多様性の強化に努め、まず、比較制約を緩和し、画像のペアを異なるコンテンツと比較する。
論文 参考訳(メタデータ) (2022-11-09T21:53:13Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Comparison of Image Quality Models for Optimization of Image Processing
Systems [41.57409136781606]
我々は、11のフル参照IQAモデルを使用して、4つの低レベル視覚タスクのためにディープニューラルネットワークをトレーニングします。
最適化された画像に対する主観的テストにより、それらの知覚的性能の観点から、競合するモデルのランク付けが可能となる。
論文 参考訳(メタデータ) (2020-05-04T09:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。