論文の概要: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- arxiv url: http://arxiv.org/abs/2312.15915v2
- Date: Mon, 29 Jan 2024 03:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 20:46:46.478691
- Title: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- Title(参考訳): ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク
- Authors: Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo
- Abstract要約: 複雑な視覚的推論によってMLLMのチャート理解とデータの信頼性を評価するためにChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
また、労働集約的な手作業を必要とせずにMLLMの評価を容易にする拡張評価指標であるAcc+を提案する。
- 参考スコア(独自算出の注目度): 38.66840297139763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) demonstrate impressive image
understanding and generating capabilities. However, existing benchmarks employ
limited charts that deviate from real-world scenarios, posing challenges in
accurately assessing the chart comprehension of MLLMs. To overcome this
constraint, we propose ChartBench, an exhaustive chart benchmark specifically
designed to evaluate MLLMs' chart comprehension and data reliability through
complex visual reasoning. ChartBench encompasses a wide spectrum, including 42
categories, 2.1K charts, and 16.8K question-answer pairs. Diverging from
previous benchmarks, ChartBench avoids employing data point annotation charts
or metadata prompts directly. Instead, it compels MLLMs to derive values akin
to human understanding by leveraging inherent chart elements such as color,
legends, or coordinate systems. Additionally, we propose an enhanced evaluation
metric, Acc+, which facilitates the evaluation of MLLMs without needing
labor-intensive manual efforts or costly evaluations based on GPT. Our
extensive experimental evaluation involves 12 widely-used open-sourced and 2
proprietary MLLMs, revealing the limitations of MLLMs in interpreting charts
and providing valuable insights to encourage closer scrutiny of this aspect.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、画像の理解と生成能力を示す。
しかし、既存のベンチマークでは、実世界のシナリオから逸脱する限定的なチャートを採用しており、MLLMのチャート理解を正確に評価する上での課題となっている。
この制約を克服するために,複雑な視覚的推論を通してMLLMのチャート理解とデータの信頼性を評価するために設計されたチャートベンチマークであるChartBenchを提案する。
ChartBenchは、42のカテゴリ、2.1Kのチャート、16.8Kの質問応答ペアを含む幅広いスペクトルを含んでいる。
以前のベンチマークと異なり、chartbenchはデータポイントアノテーションチャートやメタデータプロンプトを直接使用するのを避ける。
その代わり、MLLMは色、伝説、座標系といった固有のチャート要素を活用することで、人間の理解に似た価値を導き出す。
さらに,労働集約的な手作業やgptに基づくコストのかかる評価を必要とせずに,mllmの評価を容易にする改良評価指標であるacc+を提案する。
大規模な実験評価では、12のオープンソースと2つのプロプライエタリなMLLMを使用し、チャートの解釈におけるMLLMの限界を明らかにし、この側面をより精査するための貴重な洞察を提供する。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを導入する。
ChartMimicには1,000の人造(図、命令、コード)の三つ子が含まれている。
既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文 参考訳(メタデータ) (2024-06-14T12:10:51Z) - ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering [27.193293027128558]
マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。
本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。
低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
論文 参考訳(メタデータ) (2024-05-11T12:33:46Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。