論文の概要: Revisiting MLLM Based Image Quality Assessment: Errors and Remedy
- arxiv url: http://arxiv.org/abs/2511.07812v1
- Date: Wed, 12 Nov 2025 01:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.490442
- Title: Revisiting MLLM Based Image Quality Assessment: Errors and Remedy
- Title(参考訳): MLLMによる画像品質評価の見直し:誤りと治療
- Authors: Zhenchen Tang, Songlin Yang, Bo Peng, Zichuan Wang, Jing Dong,
- Abstract要約: 重要な課題は、MLLMの離散トークン出力とIQAタスクで要求される品質スコアの連続的な性質との間の固有のミスマッチから生じる。
軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込んだQ-Scorerを提案する。
Q-Scorerは、複数のIQAベンチマークで最先端のパフォーマンスを実現し、混合データセットに最適化し、他のメソッドと組み合わせることでさらに改善される。
- 参考スコア(独自算出の注目度): 23.918454005000328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of multi-modal large language models (MLLMs) has boosted the task of image quality assessment (IQA). However, a key challenge arises from the inherent mismatch between the discrete token outputs of MLLMs and the continuous nature of quality scores required by IQA tasks. This discrepancy significantly hinders the performance of MLLM-based IQA methods. Previous approaches that convert discrete token predictions into continuous scores often suffer from conversion errors. Moreover, the semantic confusion introduced by level tokens (e.g., ``good'') further constrains the performance of MLLMs on IQA tasks and degrades their original capabilities for related tasks. To tackle these problems, we provide a theoretical analysis of the errors inherent in previous approaches and, motivated by this analysis, propose a simple yet effective framework, Q-Scorer. This framework incorporates a lightweight regression module and IQA-specific score tokens into the MLLM pipeline. Extensive experiments demonstrate that Q-Scorer achieves state-of-the-art performance across multiple IQA benchmarks, generalizes well to mixed datasets, and further improves when combined with other methods.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)の急速な進歩は、画像品質評価(IQA)の課題を加速させた。
しかし、MLLMの離散トークン出力とIQAタスクが要求する品質スコアの連続的な性質との間には、固有のミスマッチが生じる。
この不一致はMLLMベースのIQA法の性能を著しく損なう。
離散トークン予測を連続的なスコアに変換する以前のアプローチは、しばしば変換エラーに悩まされる。
さらに、レベルトークン(例: ``good'')によって導入されたセマンティックな混乱は、IQAタスク上でのMLLMのパフォーマンスをさらに制限し、関連するタスクに対する元の能力を低下させる。
これらの問題に対処するため、従来の手法に固有の誤りを理論的に解析し、この分析を動機として、単純で効果的なフレームワークであるQ-Scorerを提案する。
このフレームワークは軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込む。
大規模な実験により、Q-Scorerは複数のIQAベンチマークにまたがって最先端のパフォーマンスを達成し、混合データセットを一般化し、他の手法と組み合わせることでさらに改善されることが示された。
関連論文リスト
- Decoupling Perception and Calibration: Label-Efficient Image Quality Assessment Framework [78.58395822978271]
LEAFはラベル効率の良い画像品質評価フレームワークである。
MLLM教師の知覚的品質の先行を軽量な学生回帰器に蒸留する。
提案手法は,強いMOS対応相関を維持しつつ,人間のアノテーションの必要性を著しく低減する。
論文 参考訳(メタデータ) (2026-01-28T15:15:17Z) - Enhancing Image Quality Assessment Ability of LMMs via Retrieval-Augmented Generation [102.10193318526137]
大規模マルチモーダルモデル(LMM)は近年,低レベルの視覚知覚タスクにおいて顕著な将来性を示している。
我々は,LMMの画像品質評価(IQA)能力を向上させるトレーニングフリーフレームワークであるIQARAGを紹介する。
IQARAGはRetrieval-Augmented Generation (RAG)を利用して、意味論的に類似しているが品質の異なる参照画像と対応する平均オピニオンスコア(MOS)を入力画像として取得する。
論文 参考訳(メタデータ) (2026-01-13T08:00:02Z) - ALARM: Automated MLLM-Based Anomaly Detection in Complex-EnviRonment Monitoring with Uncertainty Quantification [16.05388703860442]
本稿では,我々のUQ支援MLLMに基づく視覚異常検出フレームワークであるALARMを紹介する。
AlARMは、推論チェーン、自己回帰、MLLMアンサンブルなどの品質保証技術を統合して、堅牢で正確なパフォーマンスを実現している。
実世界のスマートホームベンチマークデータと創傷画像分類データを用いて大規模な実験評価を行い、ALARMの優れた性能と、信頼性の高い意思決定のために異なる領域にまたがる汎用的な適用性を示す。
論文 参考訳(メタデータ) (2025-12-01T19:03:14Z) - Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models [19.598563198222035]
本稿では,MLLMの粗度,中度,微粒度レベルでのDIQA能力を体系的に探索するQ-Docを提案する。
MLLMはDIQA能力を有するが,不整合スコア,歪み誤同定,重度誤判断などの限界がみられた。
我々の研究は、MLLMにおけるDIQA能力のベンチマークを提供し、その品質知覚における明らかな欠陥と、拡張のための有望な経路を明らかにする。
論文 参考訳(メタデータ) (2025-11-14T15:41:17Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - Q-Insight: Understanding Image Quality via Visual Reinforcement Learning [27.26829134776367]
画像品質評価(IQA)は、画像の知覚的視覚的品質に焦点を当て、画像再構成、圧縮、生成などの下流タスクにおいて重要な役割を果たす。
グループ相対ポリシー最適化(GRPO)に基づく強化学習に基づくモデルQ-Insightを提案する。
評価結果から,Q-Insightは,評価結果の回帰と劣化知覚の両面において,既存の最先端手法を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-03-28T17:59:54Z) - LLM-based Discriminative Reasoning for Knowledge Graph Question Answering [42.277864969014296]
生成事前学習型トランスフォーマーに基づく大規模言語モデル(LLM)は,知識グラフ質問応答(KGQA)タスクにおいて顕著な性能を発揮している。
しかし、LLMは、生成パラダイムによって引き起こされる幻覚的行動のために、KGQAにおいて、根拠のない部分グラフ計画や推論の結果をしばしば生み出す。
本稿では,KGQA過程を識別サブタスクに再構成するREADSを提案し,各サブタスクの検索空間を単純化する。
論文 参考訳(メタデータ) (2024-12-17T08:07:16Z) - VerifierQ: Enhancing LLM Test Time Compute with Q-Learning-based Verifiers [7.7705926659081275]
VerifierQは、オフラインQ学習を検証モデルに統合する新しいアプローチである。
LLMにQ-learningを適用する上での3つの課題に対処する。
本手法は,並列Q値計算と学習効率の向上を実現する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Few-Shot Image Quality Assessment via Adaptation of Vision-Language Models [93.91086467402323]
Gradient-Regulated Meta-Prompt IQA Framework (GRMP-IQA) は、視覚言語事前学習モデルのCLIPをIQAタスクに効率よく適応させるように設計されている。
GRMP-IQAは、 (i) Meta-Prompt 事前学習モジュールと (ii) Quality-Aware Gradient Regularization の2つのコアモジュールから構成される。
論文 参考訳(メタデータ) (2024-09-09T07:26:21Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - KECP: Knowledge Enhanced Contrastive Prompting for Few-shot Extractive
Question Answering [28.18555591429343]
我々はKECP(Knowledge Enhanced Contrastive Prompt-tuning)という新しいフレームワークを提案する。
PLMにポインタヘッドを追加する代わりに、タスクを非自己回帰型マスケッド言語モデリング(MLM)生成問題に変換する。
提案手法は,数ショット設定における最先端のアプローチを大きなマージンで一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-06T08:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。