論文の概要: DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2509.17012v1
- Date: Sun, 21 Sep 2025 10:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.073603
- Title: DocIQ: A Benchmark Dataset and Feature Fusion Network for Document Image Quality Assessment
- Title(参考訳): DocIQ: 画像品質評価のためのベンチマークデータセットと機能融合ネットワーク
- Authors: Zhichao Ma, Fan Huang, Lu Zhao, Fengjun Guo, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: 主観的なDIQAデータセットDIQA-5000を紹介する。
DIQA-5000データセットは5000個の文書画像からなる。
それぞれの強調画像は、全体的な品質、シャープさ、色質の3つの評価次元の15の被験者によって評価された。
そこで本研究では,文書レイアウト機能を利用した非参照DIQAモデルを提案する。
- 参考スコア(独自算出の注目度): 78.21680156380705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document image quality assessment (DIQA) is an important component for various applications, including optical character recognition (OCR), document restoration, and the evaluation of document image processing systems. In this paper, we introduce a subjective DIQA dataset DIQA-5000. The DIQA-5000 dataset comprises 5,000 document images, generated by applying multiple document enhancement techniques to 500 real-world images with diverse distortions. Each enhanced image was rated by 15 subjects across three rating dimensions: overall quality, sharpness, and color fidelity. Furthermore, we propose a specialized no-reference DIQA model that exploits document layout features to maintain quality perception at reduced resolutions to lower computational cost. Recognizing that image quality is influenced by both low-level and high-level visual features, we designed a feature fusion module to extract and integrate multi-level features from document images. To generate multi-dimensional scores, our model employs independent quality heads for each dimension to predict score distributions, allowing it to learn distinct aspects of document image quality. Experimental results demonstrate that our method outperforms current state-of-the-art general-purpose IQA models on both DIQA-5000 and an additional document image dataset focused on OCR accuracy.
- Abstract(参考訳): 文書画像品質評価(DIQA)は、光学文字認識(OCR)、文書復元、文書画像処理システムの評価など、様々な用途において重要な要素である。
本稿では,主観的なDIQAデータセットDIQA-5000を紹介する。
DIQA-5000データセットは5000個の文書画像からなる。
それぞれの強調画像は、全体的な品質、シャープさ、色質の3つの評価次元の15の被験者によって評価された。
さらに,文書レイアウト機能を活用し,解像度の低減と計算コストの低減を両立させる特化ノン参照DIQAモデルを提案する。
画像品質が低レベル・高レベルの両方の視覚的特徴に影響されていることを認識し,文書画像から多レベル特徴を抽出・統合する機能融合モジュールを設計した。
多次元スコアを生成するために,各次元に独立した品質ヘッドを用いてスコア分布を予測し,文書画像の品質の異なる側面を学習する。
実験の結果,本手法はDIQA-5000とOCR精度に着目した追加文書画像データセットの両方において,現在最先端の汎用IQAモデルよりも優れていることがわかった。
関連論文リスト
- MDIQA: Unified Image Quality Assessment for Multi-dimensional Evaluation and Restoration [76.94293572477379]
本稿では,多次元画像品質評価(MDIQA)フレームワークを提案する。
我々は,5つの技術次元と4つの審美次元を含む,様々な知覚次元にわたる画像品質をモデル化する。
MDIQAモデルの準備が整うと、画像復元(IR)モデルの柔軟なトレーニングのためにデプロイできる。
論文 参考訳(メタデータ) (2025-08-23T03:17:14Z) - DeQA-Doc: Adapting DeQA-Score to Document Image Quality Assessment [6.922942482129033]
我々は、文書品質評価のための最先端MLLMベースの画像品質スコアであるDeQA-Scoreを適用した。
本稿では,MLLMの視覚言語機能を活用するフレームワークであるDeQA-Docと,継続的文書品質スコアを回復するためのソフトラベル戦略を提案する。
論文 参考訳(メタデータ) (2025-07-17T05:23:53Z) - Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - UHD-IQA Benchmark Database: Pushing the Boundaries of Blind Photo Quality Assessment [4.563959812257119]
固定幅3840ピクセルの6073 UHD-1 (4K)画像からなる画像品質評価データセットを提案する。
私たちの作品は、高い技術品質の高度に美的な写真に焦点を当てており、文学のギャップを埋めています。
データセットには、クラウドソーシング調査を通じて得られた知覚的品質評価が注釈付けされている。
論文 参考訳(メタデータ) (2024-06-25T11:30:31Z) - AIGCIQA2023: A Large-scale Image Quality Assessment Database for AI
Generated Images: from the Perspectives of Quality, Authenticity and
Correspondence [42.85549933048976]
100プロンプトを用いて6つの最先端テキスト画像生成モデルに基づいて2000以上の画像を生成する。
これらの画像に基づいて、各画像に対する人間の視覚的嗜好を3つの視点から評価する主観的な実験を行った。
構築したデータベース上で,いくつかの最先端IQAメトリクスの性能を評価するためのベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-07-01T03:30:31Z) - HQ-50K: A Large-scale, High-quality Dataset for Image Restoration [105.22191357934398]
HQ-50Kには5万の高品質の画像があり、テクスチャの詳細とセマンティックな多様性がある。
既存の画像復元データセットを5つの異なる視点から分析する。
HQ-50Kは、データキュレーションプロセスでこれら5つの側面をすべて考慮し、すべての要件を満たす。
論文 参考訳(メタデータ) (2023-06-08T17:44:21Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Object-QA: Towards High Reliable Object Quality Assessment [71.71188284059203]
オブジェクト認識アプリケーションでは、オブジェクトイメージは通常、異なる品質レベルで表示される。
本稿では,オブジェクト画像の信頼性の高い品質スコアを評価するために,Object-QAという効果的手法を提案する。
論文 参考訳(メタデータ) (2020-05-27T01:46:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。