論文の概要: MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding
- arxiv url: http://arxiv.org/abs/2410.21311v1
- Date: Fri, 25 Oct 2024 16:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:42:13.353382
- Title: MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding
- Title(参考訳): MMDocBench: 細粒度ビジュアル文書理解のための大規模視覚言語モデルのベンチマーク
- Authors: Fengbin Zhu, Ziyang Liu, Xiang Yao Ng, Haohui Wu, Wenjie Wang, Fuli Feng, Chao Wang, Huanbo Luan, Tat Seng Chua,
- Abstract要約: LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
- 参考スコア(独自算出の注目度): 66.23502779435053
- License:
- Abstract: Large Vision-Language Models (LVLMs) have achieved remarkable performance in many vision-language tasks, yet their capabilities in fine-grained visual understanding remain insufficiently evaluated. Existing benchmarks either contain limited fine-grained evaluation samples that are mixed with other data, or are confined to object-level assessments in natural images. To holistically assess LVLMs' fine-grained visual understanding capabilities, we propose using document images with multi-granularity and multi-modal information to supplement natural images. In this light, we construct MMDocBench, a benchmark with various OCR-free document understanding tasks for the evaluation of fine-grained visual perception and reasoning abilities. MMDocBench defines 15 main tasks with 4,338 QA pairs and 11,353 supporting regions, covering various document images such as research papers, receipts, financial reports, Wikipedia tables, charts, and infographics. Based on MMDocBench, we conduct extensive experiments using 13 open-source and 3 proprietary advanced LVLMs, assessing their strengths and weaknesses across different tasks and document image types. The benchmark, task instructions, and evaluation code will be made publicly available.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を達成しているが、細粒度の視覚的理解能力は依然として不十分である。
既存のベンチマークには、他のデータと混合された、または自然画像のオブジェクトレベルの評価に制限された、きめ細かい評価サンプルが含まれている。
LVLMの細粒度視覚理解能力を評価するために,多粒度および多モード情報を用いた文書画像を用いて自然画像の補完を行う手法を提案する。
そこで本研究では,微粒な視覚知覚と推論能力を評価するために,様々なOCRのない文書理解タスクを備えたベンチマークMMDocBenchを構築した。
MMDocBenchは、研究論文、レシート、財務報告、ウィキペディアテーブル、チャート、インフォグラフィックなど、さまざまなドキュメントイメージをカバーする、4,338のQAペアと11,353のサポートするリージョンを持つ15のメインタスクを定義している。
MMDocBenchに基づいて13のオープンソースと3つのプロプライエタリなLVLMを用いて広範囲にわたる実験を行い、その強みと弱点をさまざまなタスクや文書イメージタイプで評価する。
ベンチマーク、タスク命令、評価コードは公開されます。
関連論文リスト
- MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - MIBench: Evaluating Multimodal Large Language Models over Multiple Images [70.44423964171088]
マルチイメージシナリオにおけるMLLMの微粒化能力を包括的に評価する新しいベンチマークMIBenchを提案する。
具体的には、MIBenchはマルチモーダル・インコンテクスト・ラーニング(MIC)とマルチモーダル・インコンテクスト・ラーニング(MIC)の3つのシナリオに分類する。
その結果、現在のモデルでは単一画像のタスクが優れているが、複数画像の入力に直面すると大きな欠点が現れることがわかった。
論文 参考訳(メタデータ) (2024-07-21T21:22:58Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the
Frequency Domain for Versatile Document Understanding [98.41782470335032]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Analyzing the Efficacy of an LLM-Only Approach for Image-based Document
Question Answering [12.064056743478865]
文書質問応答タスクにおける視覚エンコーダと言語モデルの相対的寄与について検討する。
我々の包括的分析は6つの多様なベンチマークデータセットを含み、様々なスケールのLCMを利用している。
以上の結果から, LLMにのみ依存する戦略が, 最先端の成果と同等か, 近づいた結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T07:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。