論文の概要: WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts
- arxiv url: http://arxiv.org/abs/2506.15594v1
- Date: Wed, 18 Jun 2025 16:09:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.736058
- Title: WikiMixQA: A Multimodal Benchmark for Question Answering over Tables and Charts
- Title(参考訳): WikiMixQA: テーブルとチャートに対する質問回答のためのマルチモーダルベンチマーク
- Authors: Negar Foroutan, Angelika Romanou, Matin Ansaripour, Julian Martin Eisenschlos, Karl Aberer, Rémi Lebret,
- Abstract要約: 本稿では,4000ページのウィキペディアページから抽出したテーブルとチャートの相互モーダル推論を評価するベンチマークであるWikiMixQAを紹介する。
本研究では,12種類の最先端の視覚言語モデルを評価し,プロプライエタリなモデルでは直接コンテキストで70%の精度が得られたが,長い文書からの検索が必要な場合,その性能は著しく低下することを示した。
- 参考スコア(独自算出の注目度): 14.966795545558474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Documents are fundamental to preserving and disseminating information, often incorporating complex layouts, tables, and charts that pose significant challenges for automatic document understanding (DU). While vision-language large models (VLLMs) have demonstrated improvements across various tasks, their effectiveness in processing long-context vision inputs remains unclear. This paper introduces WikiMixQA, a benchmark comprising 1,000 multiple-choice questions (MCQs) designed to evaluate cross-modal reasoning over tables and charts extracted from 4,000 Wikipedia pages spanning seven distinct topics. Unlike existing benchmarks, WikiMixQA emphasizes complex reasoning by requiring models to synthesize information from multiple modalities. We evaluate 12 state-of-the-art vision-language models, revealing that while proprietary models achieve ~70% accuracy when provided with direct context, their performance deteriorates significantly when retrieval from long documents is required. Among these, GPT-4-o is the only model exceeding 50% accuracy in this setting, whereas open-source models perform considerably worse, with a maximum accuracy of 27%. These findings underscore the challenges of long-context, multi-modal reasoning and establish WikiMixQA as a crucial benchmark for advancing document understanding research.
- Abstract(参考訳): 文書は情報の保存と普及に基本的であり、しばしば複雑なレイアウト、表、チャートが組み込まれており、自動文書理解(DU)の重要な課題となっている。
視覚言語大モデル(VLLM)は様々なタスクで改善されているが、長文視覚入力処理の有効性は未だ不明である。
本稿では,7つのトピックにまたがる4000ページのウィキペディアページから抽出したテーブルとチャートの相互モーダル推論を評価するために,1000のマルチチョイス質問(MCQ)からなるベンチマークであるWikiMixQAを紹介する。
既存のベンチマークとは異なり、WikiMixQAは複数のモダリティから情報を合成するためにモデルを必要とする複雑な推論を強調している。
我々は,12種類の最先端の視覚言語モデルを評価し,プロプライエタリなモデルでは直接的コンテキストで約70%の精度が得られたが,長い文書からの検索が必要な場合,その性能は著しく低下することを示した。
これらのうち、GPT-4-oは、この設定で50%以上の精度を持つ唯一のモデルであるが、オープンソースモデルは、最大で27%の精度で、かなりパフォーマンスが悪くなっている。
これらの知見は,文書理解研究の進展に欠かせない指標としてWikiMixQAを確立することの課題を浮き彫りにした。
関連論文リスト
- ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - MMCR: Benchmarking Cross-Source Reasoning in Scientific Papers [10.311462547308823]
この研究は、科学論文からのクロスソース情報を用いた推論のためのビジョンランゲージモデルの能力を評価するために設計されたベンチマークであるMMCRを提示する。
18のVLMによる実験では、既存のモデルに対して、クロスソース推論が重大な課題となることが示されている。
論文 参考訳(メタデータ) (2025-03-21T05:02:20Z) - REAL-MM-RAG: A Real-World Multi-Modal Retrieval Benchmark [16.55516587540082]
本稿では,リアルタイム検索に不可欠な4つの重要な特性に対処する自動生成ベンチマークREAL-MM-RAGを紹介する。
本稿では,キーワードマッチング以外のモデルのセマンティック理解を評価するために,クエリリフレッシングに基づく多言語レベルのスキームを提案する。
我々のベンチマークでは、特にテーブル重ドキュメントの扱いや、クエリ・リフレージングに対する堅牢性において、重要なモデルの弱点が明らかになっている。
論文 参考訳(メタデータ) (2025-02-17T22:10:47Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - MMLongBench-Doc: Benchmarking Long-context Document Understanding with Visualizations [105.10376440302076]
MMLongBench-Doc は 1,062 のエキスパート注釈付き質問を含む長文マルチモーダルベンチマークである。
130の長いPDFフォーマットの文書の上に構築されており、平均49.4ページと20,971のテキストトークンがある。
14個のLVLMの実験により、長いコンテキストのDUが現在のモデルに大きく挑戦することを示した。
論文 参考訳(メタデータ) (2024-07-01T17:59:26Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。