論文の概要: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- arxiv url: http://arxiv.org/abs/2312.15915v1
- Date: Tue, 26 Dec 2023 07:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:45:41.673559
- Title: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- Title(参考訳): ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク
- Authors: Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo
- Abstract要約: MLLMの基本的なチャート理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを紹介する。
具体的には、 textbf41 カテゴリ、 textbf2K チャート、 textbf16K QA アノテーションで構成される。
ChartBenchはグラフの種類を大幅に拡大する一方で、データポイントの直接的なラベル付けを回避している。
- 参考スコア(独自算出の注目度): 38.66840297139763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable
multimodal understanding and generation capabilities. However, their
understanding of synthetic charts is limited, while existing benchmarks are
simplistic and the charts deviate significantly from real-world examples,
making it challenging to accurately assess MLLMs' chart comprehension
abilities. Hence, a challenging benchmark is essential for investigating
progress and uncovering the limitations of current MLLMs on chart data. In this
work, we propose to examine chart comprehension through more complex visual
logic and introduce ChartBench, a comprehensive chart benchmark to accurately
measure MLLMs' fundamental chart comprehension and data reliability.
Specifically, ChartBench consists of \textbf{41} categories, \textbf{2K}
charts, and \textbf{16K} QA annotations. While significantly expanding chart
types, ChartBench avoids direct labelling of data points, which requires MLLMs
to infer values akin to humans by leveraging elements like color, legends, and
coordinate systems. We also introduce an improved metric, \textit{Acc+}, which
accurately reflects MLLMs' chart comprehension abilities while avoiding
labor-intensive manual evaluations or costly GPT-based evaluations. We conduct
evaluations on \textbf{12} mainstream open-source models and \textbf{2}
outstanding proprietary models. Through extensive experiments, we reveal the
limitations of MLLMs on charts and provide insights to inspire the community to
pay closer attention to MLLMs' chart comprehension abilities. The benchmark and
code will be publicly available for research.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,マルチモーダルな理解と生成能力を示す。
しかし、それらの合成チャートの理解は限られており、既存のベンチマークは単純であり、実際の例とは大きく異なるため、MLLMのチャート理解能力を正確に評価することは困難である。
したがって、グラフデータ上での現在のMLLMの限界を明らかにするためには、挑戦的なベンチマークが不可欠である。
本稿では,より複雑なビジュアル論理によるチャート理解について検討し,MLLMの基本的チャート理解とデータの信頼性を正確に測定するチャートベンチマークであるChartBenchを紹介する。
具体的には、ChartBench は \textbf{41} カテゴリ、 \textbf{2K} チャート、 \textbf{16K} QA アノテーションから構成される。
チャートタイプを著しく拡大する一方で、chartbenchはデータポイントの直接ラベル付けを避け、色、伝説、座標系などの要素を利用して、mllmは人間に似た値を推論する必要がある。
また,労働集約的な手作業評価やGPTに基づくコストの高い評価を回避しつつ,MLLMのチャート理解能力を正確に反映した改善された指標である‘textit{Acc+} も導入した。
本稿では,主要なオープンソースモデルであるtextbf{12} と,優れたプロプライエタリモデルの評価を行う。
広範な実験を通じて,MLLMのチャート上の限界を明らかにするとともに,MLLMのチャート理解能力に深い注意を払うための洞察を提供する。
ベンチマークとコードは研究対象として公開される予定だ。
関連論文リスト
- Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である
我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。
我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文 参考訳(メタデータ) (2024-10-24T14:50:42Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを導入する。
ChartMimicには1,000の人造(図、命令、コード)の三つ子が含まれている。
既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文 参考訳(メタデータ) (2024-06-14T12:10:51Z) - ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering [27.193293027128558]
マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。
本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。
低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
論文 参考訳(メタデータ) (2024-05-11T12:33:46Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。