論文の概要: Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models
- arxiv url: http://arxiv.org/abs/2511.11410v1
- Date: Fri, 14 Nov 2025 15:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.686095
- Title: Q-Doc: Benchmarking Document Image Quality Assessment Capabilities in Multi-modal Large Language Models
- Title(参考訳): Q-Doc:マルチモーダル大言語モデルにおける画像品質評価機能のベンチマーク
- Authors: Jiaxi Huang, Dongxu Wu, Hanwei Zhu, Lingyu Zhu, Jun Xing, Xu Wang, Baoliang Chen,
- Abstract要約: 本稿では,MLLMの粗度,中度,微粒度レベルでのDIQA能力を体系的に探索するQ-Docを提案する。
MLLMはDIQA能力を有するが,不整合スコア,歪み誤同定,重度誤判断などの限界がみられた。
我々の研究は、MLLMにおけるDIQA能力のベンチマークを提供し、その品質知覚における明らかな欠陥と、拡張のための有望な経路を明らかにする。
- 参考スコア(独自算出の注目度): 19.598563198222035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Multi-modal Large Language Models (MLLMs) has expanded their capabilities beyond high-level vision tasks. Nevertheless, their potential for Document Image Quality Assessment (DIQA) remains underexplored. To bridge this gap, we propose Q-Doc, a three-tiered evaluation framework for systematically probing DIQA capabilities of MLLMs at coarse, middle, and fine granularity levels. a) At the coarse level, we instruct MLLMs to assign quality scores to document images and analyze their correlation with Quality Annotations. b) At the middle level, we design distortion-type identification tasks, including single-choice and multi-choice tests for multi-distortion scenarios. c) At the fine level, we introduce distortion-severity assessment where MLLMs classify distortion intensity against human-annotated references. Our evaluation demonstrates that while MLLMs possess nascent DIQA abilities, they exhibit critical limitations: inconsistent scoring, distortion misidentification, and severity misjudgment. Significantly, we show that Chain-of-Thought (CoT) prompting substantially enhances performance across all levels. Our work provides a benchmark for DIQA capabilities in MLLMs, revealing pronounced deficiencies in their quality perception and promising pathways for enhancement. The benchmark and code are publicly available at: https://github.com/cydxf/Q-Doc.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の急速な進歩により、その能力はハイレベルな視覚タスクを超えて拡張された。
それでも、ドキュメント画像品質評価(DIQA)の可能性は未定である。
このギャップを埋めるために、我々は、MLLMの粗度、中度、微粒度レベルでのDIQA能力を体系的に探索する3層評価フレームワークであるQ-Docを提案する。
a) 粗いレベルでは,MLLMに文書画像に品質スコアを割り当て,それらの品質アノテーションとの相関を解析するように指示する。
b) 中間レベルでは,多歪みシナリオに対する単選択および多選択テストを含む歪み型識別タスクを設計する。
c) 微少レベルでは, MLLMが人間の注釈付き参照に対する歪み強度を分類する歪み重大度評価を導入する。
評価の結果,MLLMはDIQA能力を有するが,不整合スコア,歪み誤同定,重度誤判断などの限界がみられた。
重要なことは、チェーン・オブ・ソート(CoT)が全てのレベルにおけるパフォーマンスを大幅に向上させることである。
我々の研究は、MLLMにおけるDIQA能力のベンチマークを提供し、その品質知覚における明らかな欠陥と、拡張のための有望な経路を明らかにする。
ベンチマークとコードは、https://github.com/cydxf/Q-Docで公開されている。
関連論文リスト
- Revisiting MLLM Based Image Quality Assessment: Errors and Remedy [23.918454005000328]
重要な課題は、MLLMの離散トークン出力とIQAタスクで要求される品質スコアの連続的な性質との間の固有のミスマッチから生じる。
軽量回帰モジュールとIQA固有のスコアトークンをMLLMパイプラインに組み込んだQ-Scorerを提案する。
Q-Scorerは、複数のIQAベンチマークで最先端のパフォーマンスを実現し、混合データセットに最適化し、他のメソッドと組み合わせることでさらに改善される。
論文 参考訳(メタデータ) (2025-11-11T04:08:44Z) - DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment [6.922942482129033]
我々は、文書品質評価のための最先端MLLMベースの画像品質スコアであるDeQA-Scoreを適用した。
本稿では,MLLMの視覚言語機能を活用するフレームワークであるDeQA-Docと,継続的文書品質スコアを回復するためのソフトラベル戦略を提案する。
論文 参考訳(メタデータ) (2025-07-17T05:23:53Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - Q-Bench: A Benchmark for General-Purpose Foundation Models on Low-level
Vision [85.6008224440157]
MLLM(Multi-modality Large Language Models)は、コンピュータビジョンの特殊モデルから汎用基礎モデルへのシフトを触媒している。
Q-Benchは3つの領域(低レベル視覚知覚、低レベル視覚記述、全体視品質評価)でMLLMの潜在能力を評価するための総合的なベンチマークである。
論文 参考訳(メタデータ) (2023-09-25T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。