論文の概要: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- arxiv url: http://arxiv.org/abs/2312.15915v2
- Date: Mon, 29 Jan 2024 03:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 20:46:46.478691
- Title: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- Title(参考訳): ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク
- Authors: Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo
- Abstract要約: 複雑な視覚的推論によってMLLMのチャート理解とデータの信頼性を評価するためにChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
また、労働集約的な手作業を必要とせずにMLLMの評価を容易にする拡張評価指標であるAcc+を提案する。
- 参考スコア(独自算出の注目度): 38.66840297139763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate impressive image
understanding and generating capabilities. However, existing benchmarks employ
limited charts that deviate from real-world scenarios, posing challenges in
accurately assessing the chart comprehension of MLLMs. To overcome this
constraint, we propose ChartBench, an exhaustive chart benchmark specifically
designed to evaluate MLLMs' chart comprehension and data reliability through
complex visual reasoning. ChartBench encompasses a wide spectrum, including 42
categories, 2.1K charts, and 16.8K question-answer pairs. Diverging from
previous benchmarks, ChartBench avoids employing data point annotation charts
or metadata prompts directly. Instead, it compels MLLMs to derive values akin
to human understanding by leveraging inherent chart elements such as color,
legends, or coordinate systems. Additionally, we propose an enhanced evaluation
metric, Acc+, which facilitates the evaluation of MLLMs without needing
labor-intensive manual efforts or costly evaluations based on GPT. Our
extensive experimental evaluation involves 12 widely-used open-sourced and 2
proprietary MLLMs, revealing the limitations of MLLMs in interpreting charts
and providing valuable insights to encourage closer scrutiny of this aspect.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像の理解と生成能力を示す。
しかし、既存のベンチマークでは、実世界のシナリオから逸脱する限定的なチャートを採用しており、MLLMのチャート理解を正確に評価する上での課題となっている。
この制約を克服するために,複雑な視覚的推論を通してMLLMのチャート理解とデータの信頼性を評価するために設計されたチャートベンチマークであるChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
以前のベンチマークと異なり、chartbenchはデータポイントアノテーションチャートやメタデータプロンプトを直接使用するのを避ける。
その代わり、MLLMは色、伝説、座標系といった固有のチャート要素を活用することで、人間の理解に似た価値を導き出す。
さらに,労働集約的な手作業やgptに基づくコストのかかる評価を必要とせずに,mllmの評価を容易にする改良評価指標であるacc+を提案する。
大規模な実験評価では、12のオープンソースと2つのプロプライエタリなMLLMを使用し、チャートの解釈におけるMLLMの限界を明らかにし、この側面をより精査するための貴重な洞察を提供する。
関連論文リスト
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - OneChart: Purify the Chart Structural Extraction via One Auxiliary Token [23.271325787765875]
OneChartは、チャート情報の構造抽出のために特別に考案された信頼できるエージェントである。
合計トークンの先頭に配置された補助トークンと追加のデコーダを導入する。
補助トークンを用いて,グラフ解析結果の信頼性を評価する自己評価機構を考案した。
論文 参考訳(メタデータ) (2024-04-15T17:58:57Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - Do LLMs Work on Charts? Designing Few-Shot Prompts for Chart Question
Answering and Summarization [27.913656283822483]
大規模言語モデル(LLM)は、目に見えないタスクに対して印象的な一般化能力を示している。
本稿では,チャート関連アプリケーションのための LLM を用いたマルチモーダルな複数ショットプロンプトフレームワーク PromptChart を提案する。
3つの異なるチャート関連情報消費タスクに関する実験により、適切に設計されたプロンプトにより、LLMがベンチマーク上で優れることを示す。
論文 参考訳(メタデータ) (2023-12-17T05:13:58Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。