論文の概要: ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering
- arxiv url: http://arxiv.org/abs/2505.23242v1
- Date: Thu, 29 May 2025 08:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.765425
- Title: ChartMind: A Comprehensive Benchmark for Complex Real-world Multimodal Chart Question Answering
- Title(参考訳): ChartMind: 複雑な実世界のマルチモーダルチャート質問に対する総合ベンチマーク
- Authors: Jingxuan Wei, Nan Xu, Junnan Zhu, Yanni Hao, Gaowei Wu, Bihui Yu, Lei Wang,
- Abstract要約: チャート質問応答(CQA)は、視覚言語モデルの推論能力を評価するための重要なマルチモーダルタスクとなっている。
実環境における複雑なCQAタスク用に設計された新しいベンチマークであるChartMindを紹介する。
本稿では,重要な文脈要素の抽出に焦点をあてた文脈対応だがモデルに依存しないフレームワークであるChartLLMを提案する。
- 参考スコア(独自算出の注目度): 14.468507852394923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chart question answering (CQA) has become a critical multimodal task for evaluating the reasoning capabilities of vision-language models. While early approaches have shown promising performance by focusing on visual features or leveraging large-scale pre-training, most existing evaluations rely on rigid output formats and objective metrics, thus ignoring the complex, real-world demands of practical chart analysis. In this paper, we introduce ChartMind, a new benchmark designed for complex CQA tasks in real-world settings. ChartMind covers seven task categories, incorporates multilingual contexts, supports open-domain textual outputs, and accommodates diverse chart formats, bridging the gap between real-world applications and traditional academic benchmarks. Furthermore, we propose a context-aware yet model-agnostic framework, ChartLLM, that focuses on extracting key contextual elements, reducing noise, and enhancing the reasoning accuracy of multimodal large language models. Extensive evaluations on ChartMind and three representative public benchmarks with 14 mainstream multimodal models show our framework significantly outperforms the previous three common CQA paradigms: instruction-following, OCR-enhanced, and chain-of-thought, highlighting the importance of flexible chart understanding for real-world CQA. These findings suggest new directions for developing more robust chart reasoning in future research.
- Abstract(参考訳): チャート質問応答(CQA)は、視覚言語モデルの推論能力を評価するための重要なマルチモーダルタスクとなっている。
初期のアプローチでは、視覚的特徴に注目したり、大規模な事前学習を活用することで、有望なパフォーマンスを示しているが、既存の評価のほとんどは、厳密な出力形式と客観的なメトリクスに依存しており、実用的なチャート分析の複雑な実世界の要求を無視している。
本稿では,実環境における複雑なCQAタスクのための新しいベンチマークであるChartMindを紹介する。
ChartMindは7つのタスクカテゴリをカバーし、マルチ言語コンテキストを取り入れ、オープンドメインのテキスト出力をサポートし、さまざまなチャートフォーマットに対応し、現実世界のアプリケーションと従来の学術ベンチマークのギャップを埋める。
さらに,重要な文脈要素の抽出,ノイズの低減,マルチモーダルな大規模言語モデルの推論精度の向上に重点を置いた,文脈対応ながらモデルに依存しないフレームワークChartLLMを提案する。
ChartMindと14の主流マルチモーダルモデルによる3つの代表的な公開ベンチマークによる大規模な評価は、我々のフレームワークがこれまでの3つの一般的なCQAパラダイム(命令フォロー、OCR強化、チェーンオブ思想)を大きく上回っており、現実世界のCQAに対する柔軟なチャート理解の重要性を強調している。
これらの結果は、今後の研究において、より堅牢なチャート推論を開発するための新たな方向性を示唆している。
関連論文リスト
- Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Benchmarking Multimodal RAG through a Chart-based Document Question-Answering Generation Framework [17.838177710655287]
MRAG(Multimodal Retrieval-Augmented Generation)は、外部知識を統合することで推論能力を向上させる。
既存のベンチマークは主に、現実世界のアプリケーションで広く使われているチャートのような複雑なビジュアルフォーマットを見渡す、単純な画像とテキストのインタラクションに焦点を当てている。
本稿では、構造化キーポイント抽出、クロスモーダル検証、キーポイントベース生成による評価データを生成するフレームワークであるCHARGE(CHARt-based document question-anwering GEneration)を提案する。
論文 参考訳(メタデータ) (2025-02-20T18:59:42Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - mChartQA: A universal benchmark for multimodal Chart Question Answer based on Vision-Language Alignment and Reasoning [8.1113308714581]
本稿では,新しいマルチモーダルチャート質問応答モデルを提案する。
我々のモデルは、既存の手法の制約を克服し、視覚的および言語的処理を統合する。
このアプローチは、複数のパブリックデータセット上での優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-04-02T01:28:44Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Classification-Regression for Chart Comprehension [16.311371103939205]
チャート質問応答(CQA)は、チャート理解を評価するために用いられるタスクである。
分類と回帰を共同で学習する新しいモデルを提案する。
私たちのモデルのエッジは、特に語彙外回答の質問に重点を置いています。
論文 参考訳(メタデータ) (2021-11-29T18:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。