論文の概要: Plug In, Grade Right: Psychology-Inspired AGIQA
- arxiv url: http://arxiv.org/abs/2512.22780v1
- Date: Sun, 28 Dec 2025 04:51:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.220455
- Title: Plug In, Grade Right: Psychology-Inspired AGIQA
- Title(参考訳): プラグイン、グレード右:心理学にインスパイアされたAGIQA
- Authors: Zhicheng Liao, Baoliang Chen, Hanwei Zhu, Lingyu Zhu, Shiqi Wang, Weisi Lin,
- Abstract要約: 既存のAGIQAモデルは、画像埋め込みとテキスト埋め込みの類似性の測定と集約により、画像品質を推定する。
本稿では, AGIQA に対する高次応答モデル (GRM) を提案する。
我々のArithmetic GRMベースの品質グレーディング(AGQG)モジュールは、プラグアンドプレイの利点を享受しています。
- 参考スコア(独自算出の注目度): 60.23968344837525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing AGIQA models typically estimate image quality by measuring and aggregating the similarities between image embeddings and text embeddings derived from multi-grade quality descriptions. Although effective, we observe that such similarity distributions across grades usually exhibit multimodal patterns. For instance, an image embedding may show high similarity to both "excellent" and "poor" grade descriptions while deviating from the "good" one. We refer to this phenomenon as "semantic drift", where semantic inconsistencies between text embeddings and their intended descriptions undermine the reliability of text-image shared-space learning. To mitigate this issue, we draw inspiration from psychometrics and propose an improved Graded Response Model (GRM) for AGIQA. The GRM is a classical assessment model that categorizes a subject's ability across grades using test items with various difficulty levels. This paradigm aligns remarkably well with human quality rating, where image quality can be interpreted as an image's ability to meet various quality grades. Building on this philosophy, we design a two-branch quality grading module: one branch estimates image ability while the other constructs multiple difficulty levels. To ensure monotonicity in difficulty levels, we further model difficulty generation in an arithmetic manner, which inherently enforces a unimodal and interpretable quality distribution. Our Arithmetic GRM based Quality Grading (AGQG) module enjoys a plug-and-play advantage, consistently improving performance when integrated into various state-of-the-art AGIQA frameworks. Moreover, it also generalizes effectively to both natural and screen content image quality assessment, revealing its potential as a key component in future IQA models.
- Abstract(参考訳): 既存のAGIQAモデルは、画像埋め込みとマルチグレードの品質記述から導かれたテキスト埋め込みの類似性を計測し集約することで、画像品質を推定する。
有効ではあるが、等級にまたがる類似度分布は、通常マルチモーダルパターンを示す。
例えば、画像埋め込みは、良いものから逸脱しながら、「優れた」と「悪い」の両方のグレード記述と高い類似性を示すことがある。
この現象を「セマンティックドリフト」と呼び、テキスト埋め込みと意図した記述とのセマンティックな矛盾が、テキストイメージの共有空間学習の信頼性を損なう。
この問題を緩和するため、精神測定学からインスピレーションを得て、AGIQAのグレード・レスポンシブ・モデル(GRM)の改善を提案する。
GRMは古典的評価モデルであり、様々な難易度を持つテスト項目を用いて、学年ごとの被験者の能力を分類する。
このパラダイムは、画像の品質を様々な品質のグレードを満たす画像の能力と解釈できる、人間の品質評価と極めてよく一致している。
この哲学に基づいて、我々は2分岐品質グレーディングモジュールを設計する。一方のブランチは画像の能力を推定し、もう一方のブランチは複数の難易度を構成する。
難易度における単調性を確保するため,算術的な方法での難易度生成をモデル化する。
我々のArithmetic GRMベースの品質グレーディング(AGQG)モジュールは、プラグインとプレイの利点を享受し、様々な最先端のAGIQAフレームワークに統合された場合のパフォーマンスを継続的に改善します。
さらに、自然なコンテンツ品質評価とスクリーン品質評価の両方に効果的に一般化し、将来のIQAモデルの重要コンポーネントとしての可能性を明らかにする。
関連論文リスト
- VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank [30.316630325648834]
推論による非参照IQA(NR-IQA)モデルであるVisualQuality-R1を導入し、強化学習でランク付けする。
VisualQuality-R1 は差別的深層学習に基づく NR-IQA モデルより一貫して優れていることを示す。
VisualQuality-R1は、コンテキスト的にリッチでヒューマンアラインな品質記述を生成することができる。
論文 参考訳(メタデータ) (2025-05-20T14:56:50Z) - Teaching LMMs for Image Quality Scoring and Interpreting [71.1335005098584]
Q-SiT(Quality Scoring and Interpreting Joint Teaching)は,画像品質のスコアリングと解釈を同時に行うための統合フレームワークである。
Q-SiTは、Q-SiT-miniと共に画像品質スコアリングと解釈タスクを同時に実行する最初のモデルである。
実験結果から,Q-SiTはIQA能力の優れた両タスクにおいて高い性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-03-12T09:39:33Z) - IQA-Adapter: Exploring Knowledge Transfer from Image Quality Assessment to Diffusion-based Generative Models [0.5356944479760104]
画像品質評価(IQA)モデルを拡散型ジェネレータに統合する手法を提案する。
拡散モデルはIQAモデルの出力と内部アクティベーションの両方から複雑な定性的関係を学習できることを示す。
IQA-Adapterは,画像と品質スコアの暗黙的関係を学習することで,目標品質レベルの生成を条件付ける新しいフレームワークである。
論文 参考訳(メタデータ) (2024-12-02T18:40:19Z) - DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [73.6767681305851]
野生のブラインド画像品質評価(IQA)は重大な課題を呈している。
大規模なトレーニングデータの収集が困難であることを考えると、厳密な一般化モデルを開発するために限られたデータを活用することは、未解決の問題である。
事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルの堅牢な画像認識能力により,新しいIQA法,拡散先行に基づくIQAを提案する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Pairwise Comparisons Are All You Need [22.798716660911833]
ブラインド画像品質評価(BIQA)アプローチは、様々な画像に一様に適用される一般的な品質基準に依存しているため、現実のシナリオでは不足することが多い。
本稿では、従来のBIQAの制限を回避すべく設計されたペアワイズ比較フレームワークであるPICNIQを紹介する。
PICNIQは、サイコメトリックスケーリングアルゴリズムを用いることで、対比較をジャストオブジェクタブルディファレンス(JOD)の品質スコアに変換し、画像品質の粒度と解釈可能な指標を提供する。
論文 参考訳(メタデータ) (2024-03-13T23:43:36Z) - HiCD: Change Detection in Quality-Varied Images via Hierarchical
Correlation Distillation [40.03785896317387]
知識蒸留を基礎とした革新的な教育戦略を導入する。
中心となるアイデアは、高品質なイメージペアから取得したタスク知識を活用して、モデルの学習をガイドすることにある。
我々は階層的相関蒸留法(自己相関、相互相関、大域相関を含む)を開発する。
論文 参考訳(メタデータ) (2024-01-19T15:21:51Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。