論文の概要: MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations
- arxiv url: http://arxiv.org/abs/2407.01523v3
- Date: Tue, 12 Nov 2024 04:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:18:48.612374
- Title: MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations
- Title(参考訳): MMLongBench-Doc: 可視化による長文文書理解のベンチマーク
- Authors: Yubo Ma, Yuhang Zang, Liangyu Chen, Meiqi Chen, Yizhu Jiao, Xinze Li, Xinyuan Lu, Ziyu Liu, Yan Ma, Xiaoyi Dong, Pan Zhang, Liangming Pan, Yu-Gang Jiang, Jiaqi Wang, Yixin Cao, Aixin Sun,
- Abstract要約: MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
- 参考スコア(独自算出の注目度): 105.10376440302076
- License:
- Abstract: Understanding documents with rich layouts and multi-modal components is a long-standing and practical task. Recent Large Vision-Language Models (LVLMs) have made remarkable strides in various tasks, particularly in single-page document understanding (DU). However, their abilities on long-context DU remain an open problem. This work presents MMLongBench-Doc, a long-context, multi-modal benchmark comprising 1,062 expert-annotated questions. Distinct from previous datasets, it is constructed upon 130 lengthy PDF-formatted documents with an average of 49.4 pages and 20,971 textual tokens. Towards comprehensive evaluation, answers to these questions rely on pieces of evidence from (1) different sources (text, image, chart, table, and layout structure) and (2) various locations (i.e. page number). Moreover, 33.2% of the questions are cross-page questions requiring evidence across multiple pages. 22.8% of the questions are designed to be unanswerable for detecting potential hallucinations. Experiments on 14 LVLMs demonstrate that long-context DU greatly challenges current models. Notably, the best-performing model, GPT-4o, achieves an F1 score of only 42.7%, while the second-best, GPT-4V, scores 31.4%. Furthermore, 12 LVLMs (all except GPT-4o and GPT-4V) even present worse performance than their LLM counterparts which are fed with lossy-parsed OCR documents. These results validate the necessity of future research toward more capable long-context LVLMs. Project Page: https://mayubo2333.github.io/MMLongBench-Doc
- Abstract(参考訳): リッチなレイアウトとマルチモーダルコンポーネントでドキュメントを理解することは、長年の実践的課題である。
最近のLVLM(Large Vision-Language Models)は、特に単一ページ文書理解(DU)において、様々なタスクにおいて顕著な進歩を遂げている。
しかし、長文DUに対するそれらの能力は依然として未解決の問題である。
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
以前のデータセットとは違って、平均49.4ページと20,971のテキストトークンを持つ130のPDFフォーマットの文書上に構築されている。
総合的な評価に向けて、これらの質問に対する回答は、(1)異なる情報源(テキスト、画像、チャート、テーブル、レイアウト構造)と(2)様々な場所(ページ番号)からの証拠の断片に依存している。
さらに、質問の33.2%は複数のページにわたる証拠を必要とする横断的な質問である。
22.8%の質問は幻覚の可能性を検出できないように設計されている。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
特に、最高のパフォーマンスモデルであるGPT-4oはF1スコアが42.7%、第2位のGPT-4Vは31.4%である。
さらに、12個のLVLM(GPT-4oとGPT-4Vを除く)は、損失の少ないOCR文書を供給しているLLMよりも性能が劣っている。
これらの結果は、より有能なLVLMに向けた将来の研究の必要性を検証するものである。
Project Page: https://mayubo2333.github.io/MMLongBench-Doc
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。
既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。
自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文 参考訳(メタデータ) (2024-10-25T16:00:55Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。
Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。
Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文 参考訳(メタデータ) (2024-04-09T17:30:48Z) - ContraDoc: Understanding Self-Contradictions in Documents with Large Language Models [7.428236410246183]
われわれはContraDocを紹介した。ContraDocは、複数のドメインにまたがる長いドキュメントにおける自己コントラクションを研究する最初の人間アノテーション付きデータセットである。
我々は,このデータセット上でGPT3.5, GPT4, PaLM2, LLaMAv2の4つの最先端オープンソースおよび商用LLMの現在の機能を分析する。
GPT4はこのタスクで最高のパフォーマンスを発揮し、人間より優れていますが、信頼できないことや、よりニュアンスとコンテキストを必要とする自己矛盾に苦労していることが分かりました。
論文 参考訳(メタデータ) (2023-11-15T18:23:17Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。