論文の概要: Revisiting MLLM Based Image Quality Assessment: Errors and Remedy
- arxiv url: http://arxiv.org/abs/2511.07812v1
- Date: Wed, 12 Nov 2025 01:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.490442
- Title: Revisiting MLLM Based Image Quality Assessment: Errors and Remedy
- Title(参考訳): MLLMによる画像品質評価の見直し:誤りと治療
- Authors: Zhenchen Tang, Songlin Yang, Bo Peng, Zichuan Wang, Jing Dong,
- Abstract要約: 重要な課題は、MLLMの離散トークン出力とIQAタスクで要求される品質スコアの連続的な性質との間の固有のミスマッチから生じる。
軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込んだQ-Scorerを提案する。
Q-Scorerは、複数のIQAベンチマークで最先端のパフォーマンスを実現し、混合データセットに最適化し、他のメソッドと組み合わせることでさらに改善される。
- 参考スコア(独自算出の注目度): 23.918454005000328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of multi-modal large language models (MLLMs) has boosted the task of image quality assessment (IQA). However, a key challenge arises from the inherent mismatch between the discrete token outputs of MLLMs and the continuous nature of quality scores required by IQA tasks. This discrepancy significantly hinders the performance of MLLM-based IQA methods. Previous approaches that convert discrete token predictions into continuous scores often suffer from conversion errors. Moreover, the semantic confusion introduced by level tokens (e.g., ``good'') further constrains the performance of MLLMs on IQA tasks and degrades their original capabilities for related tasks. To tackle these problems, we provide a theoretical analysis of the errors inherent in previous approaches and, motivated by this analysis, propose a simple yet effective framework, Q-Scorer. This framework incorporates a lightweight regression module and IQA-specific score tokens into the MLLM pipeline. Extensive experiments demonstrate that Q-Scorer achieves state-of-the-art performance across multiple IQA benchmarks, generalizes well to mixed datasets, and further improves when combined with other methods.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、画像品質評価(IQA)の課題を加速させた。
しかし、MLLMの離散トークン出力とIQAタスクが要求する品質スコアの連続的な性質との間には、固有のミスマッチが生じる。
この不一致はMLLMベースのIQA法の性能を著しく損なう。
離散トークン予測を連続的なスコアに変換する以前のアプローチは、しばしば変換エラーに悩まされる。
さらに、レベルトークン(例: ``good'')によって導入されたセマンティックな混乱は、IQAタスク上でのMLLMのパフォーマンスをさらに制限し、関連するタスクに対する元の能力を低下させる。
これらの問題に対処するため、従来の手法に固有の誤りを理論的に解析し、この分析を動機として、単純で効果的なフレームワークであるQ-Scorerを提案する。
このフレームワークは軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込む。
大規模な実験により、Q-Scorerは複数のIQAベンチマークにまたがって最先端のパフォーマンスを達成し、混合データセットを一般化し、他の手法と組み合わせることでさらに改善されることが示された。
関連論文リスト
- AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - LLM-based Discriminative Reasoning for Knowledge Graph Question Answering [42.277864969014296]
生成事前学習型トランスフォーマーに基づく大規模言語モデル(LLM)は,知識グラフ質問応答(KGQA)タスクにおいて顕著な性能を発揮している。
しかし、LLMは、生成パラダイムによって引き起こされる幻覚的行動のために、KGQAにおいて、根拠のない部分グラフ計画や推論の結果をしばしば生み出す。
本稿では,KGQA過程を識別サブタスクに再構成するREADSを提案し,各サブタスクの検索空間を単純化する。
論文 参考訳(メタデータ) (2024-12-17T08:07:16Z) - VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers [7.7705926659081275]
VerifierQは、オフラインQ学習を検証モデルに統合する新しいアプローチである。
LLMにQ-learningを適用する上での3つの課題に対処する。
本手法は,並列Q値計算と学習効率の向上を実現する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。