論文の概要: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- arxiv url: http://arxiv.org/abs/2312.15915v1
- Date: Tue, 26 Dec 2023 07:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 15:45:41.673559
- Title: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
- Title(参考訳): ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク
- Authors: Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo
- Abstract要約: MLLMの基本的なチャート理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを紹介する。
具体的には、 textbf41 カテゴリ、 textbf2K チャート、 textbf16K QA アノテーションで構成される。
ChartBenchはグラフの種類を大幅に拡大する一方で、データポイントの直接的なラベル付けを回避している。
- 参考スコア(独自算出の注目度): 38.66840297139763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable
multimodal understanding and generation capabilities. However, their
understanding of synthetic charts is limited, while existing benchmarks are
simplistic and the charts deviate significantly from real-world examples,
making it challenging to accurately assess MLLMs' chart comprehension
abilities. Hence, a challenging benchmark is essential for investigating
progress and uncovering the limitations of current MLLMs on chart data. In this
work, we propose to examine chart comprehension through more complex visual
logic and introduce ChartBench, a comprehensive chart benchmark to accurately
measure MLLMs' fundamental chart comprehension and data reliability.
Specifically, ChartBench consists of \textbf{41} categories, \textbf{2K}
charts, and \textbf{16K} QA annotations. While significantly expanding chart
types, ChartBench avoids direct labelling of data points, which requires MLLMs
to infer values akin to humans by leveraging elements like color, legends, and
coordinate systems. We also introduce an improved metric, \textit{Acc+}, which
accurately reflects MLLMs' chart comprehension abilities while avoiding
labor-intensive manual evaluations or costly GPT-based evaluations. We conduct
evaluations on \textbf{12} mainstream open-source models and \textbf{2}
outstanding proprietary models. Through extensive experiments, we reveal the
limitations of MLLMs on charts and provide insights to inspire the community to
pay closer attention to MLLMs' chart comprehension abilities. The benchmark and
code will be publicly available for research.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は,マルチモーダルな理解と生成能力を示す。
しかし、それらの合成チャートの理解は限られており、既存のベンチマークは単純であり、実際の例とは大きく異なるため、MLLMのチャート理解能力を正確に評価することは困難である。
したがって、グラフデータ上での現在のMLLMの限界を明らかにするためには、挑戦的なベンチマークが不可欠である。
本稿では,より複雑なビジュアル論理によるチャート理解について検討し,MLLMの基本的チャート理解とデータの信頼性を正確に測定するチャートベンチマークであるChartBenchを紹介する。
具体的には、ChartBench は \textbf{41} カテゴリ、 \textbf{2K} チャート、 \textbf{16K} QA アノテーションから構成される。
チャートタイプを著しく拡大する一方で、chartbenchはデータポイントの直接ラベル付けを避け、色、伝説、座標系などの要素を利用して、mllmは人間に似た値を推論する必要がある。
また,労働集約的な手作業評価やGPTに基づくコストの高い評価を回避しつつ,MLLMのチャート理解能力を正確に反映した改善された指標である‘textit{Acc+} も導入した。
本稿では,主要なオープンソースモデルであるtextbf{12} と,優れたプロプライエタリモデルの評価を行う。
広範な実験を通じて,MLLMのチャート上の限界を明らかにするとともに,MLLMのチャート理解能力に深い注意を払うための洞察を提供する。
ベンチマークとコードは研究対象として公開される予定だ。
関連論文リスト
- TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - OneChart: Purify the Chart Structural Extraction via One Auxiliary Token [23.271325787765875]
OneChartは、チャート情報の構造抽出のために特別に考案された信頼できるエージェントである。
合計トークンの先頭に配置された補助トークンと追加のデコーダを導入する。
補助トークンを用いて,グラフ解析結果の信頼性を評価する自己評価機構を考案した。
論文 参考訳(メタデータ) (2024-04-15T17:58:57Z) - ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for
Complicated Chart Reasoning [56.4579228575522]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。
ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。
我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文 参考訳(メタデータ) (2024-02-19T14:48:23Z) - Do LLMs Work on Charts? Designing Few-Shot Prompts for Chart Question
Answering and Summarization [27.913656283822483]
大規模言語モデル(LLM)は、目に見えないタスクに対して印象的な一般化能力を示している。
本稿では,チャート関連アプリケーションのための LLM を用いたマルチモーダルな複数ショットプロンプトフレームワーク PromptChart を提案する。
3つの異なるチャート関連情報消費タスクに関する実験により、適切に設計されたプロンプトにより、LLMがベンチマーク上で優れることを示す。
論文 参考訳(メタデータ) (2023-12-17T05:13:58Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。
多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。
我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文 参考訳(メタデータ) (2023-11-15T23:36:42Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。