論文の概要: DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2507.12796v1
- Date: Thu, 17 Jul 2025 05:23:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.34866
- Title: DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment
- Title(参考訳): DeQA-Doc: 画像品質評価の文書化にDeQA-Scoreを適用する
- Authors: Junjie Gao, Runze Liu, Yingzhe Peng, Shujian Yang, Jin Zhang, Kai Yang, Zhiyuan You,
- Abstract要約: 我々は、文書品質評価のための最先端MLLMベースの画像品質スコアであるDeQA-Scoreを適用した。
本稿では,MLLMの視覚言語機能を活用するフレームワークであるDeQA-Docと,継続的文書品質スコアを回復するためのソフトラベル戦略を提案する。
- 参考スコア(独自算出の注目度): 6.922942482129033
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document quality assessment is critical for a wide range of applications including document digitization, OCR, and archival. However, existing approaches often struggle to provide accurate and robust quality scores, limiting their applicability in practical scenarios. With the rapid progress in Multi-modal Large Language Models (MLLMs), recent MLLM-based methods have achieved remarkable performance in image quality assessment. In this work, we extend this success to the document domain by adapting DeQA-Score, a state-of-the-art MLLM-based image quality scorer, for document quality assessment. We propose DeQA-Doc, a framework that leverages the visual language capabilities of MLLMs and a soft label strategy to regress continuous document quality scores. To adapt DeQA-Score to DeQA-Doc, we adopt two complementary solutions to construct soft labels without the variance information. Also, we relax the resolution constrains to support the large resolution of document images. Finally, we introduce ensemble methods to further enhance the performance. Extensive experiments demonstrate that DeQA-Doc significantly outperforms existing baselines, offering accurate and generalizable document quality assessment across diverse degradation types. Codes and model weights are available in https://github.com/Junjie-Gao19/DeQA-Doc.
- Abstract(参考訳): 文書品質評価は、文書のデジタル化、OCR、アーカイブなど幅広い用途において重要である。
しかし、既存のアプローチは、しばしば正確で堅牢な品質スコアを提供するのに苦労し、実践的なシナリオで適用性を制限する。
MLLM(Multi-modal Large Language Models)の急速な進歩に伴い,最近のMLLM法は画像品質評価において顕著な性能を発揮している。
本研究では,この成果を文書品質評価のための最先端MLLMベースの画像品質スコアであるDeQA-Scoreに適応させることにより,文書領域に拡張する。
本稿では,MLLMの視覚言語機能を活用するフレームワークであるDeQA-Docと,継続的文書品質スコアを回復するためのソフトラベル戦略を提案する。
DeQA-ScoreをDeQA-Docに適応させるために、分散情報なしでソフトラベルを構築するための2つの補完的なソリューションを採用する。
また,文書画像の大解像度化を支援するために,解像度制約を緩和する。
最後に,性能向上のためのアンサンブル手法を提案する。
大規模な実験により、DeQA-Docは既存のベースラインを大幅に上回り、さまざまな劣化タイプに対して正確で一般化可能な文書品質評価を提供することが示された。
コードとモデルの重み付けはhttps://github.com/Junjie-Gao19/DeQA-Docで確認できる。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - WildDoc: How Far Are We from Achieving Comprehensive and Robust Document Understanding in the Wild? [64.62909376834601]
本稿では,自然環境における文書理解の評価に特化して設計されたWildDocについて紹介する。
WildDoc上での最先端MLLMの評価は、従来のベンチマークと比べて性能が大幅に低下し、モデルの頑健さが不十分であることを示す。
論文 参考訳(メタデータ) (2025-05-16T09:09:46Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - Toward Robust Hyper-Detailed Image Captioning: A Multiagent Approach and Dual Evaluation Metrics for Factuality and Coverage [50.84150600032693]
MLLM(Multimodal large language model)は、非常に詳細なキャプションを生成するのに優れるが、幻覚を引き起こすことが多い。
我々は,LLM-MLLM協調を利用して与えられたキャプションを補正するマルチエージェント手法を提案する。
提案手法は, キャプションの精度を向上し, GPT-4Vによるキャプションの精度を向上する。
論文 参考訳(メタデータ) (2024-12-20T01:37:22Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - HiQA: A Hierarchical Contextual Augmentation RAG for Multi-Documents QA [13.000411428297813]
コンテンツにカスケードメタデータと複数ルート検索機構を統合した,高度な多文書質問応答(MDQA)フレームワークであるHiQAを提案する。
また、MDQAの評価と研究を行うMasQAというベンチマークもリリースしました。
論文 参考訳(メタデータ) (2024-02-01T02:24:15Z) - A Multi-Document Coverage Reward for RELAXed Multi-Document
Summarization [11.02198476454955]
本稿では,MDSの基準値と入力文書のカバレッジのバランスをとる報酬を付与したMDSベースラインの微調整を提案する。
Multi-NewsおよびWCEP MDSデータセットに対する実験結果から、ベースライン上での平均ROUGEスコアが+0.95pp、METEORスコアが+3.17ppと大幅に改善された。
論文 参考訳(メタデータ) (2022-03-06T07:33:01Z) - Recognition-free Question Answering on Handwritten Document Collections [3.0969191504482247]
手書き文書に対する無認識質問回答手法を提案する。
我々のアプローチは、挑戦的なBenthamQAとHW-SQuADデータセットにおいて、最先端の認識自由モデルよりも優れています。
論文 参考訳(メタデータ) (2022-02-12T14:47:44Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。