論文の概要: ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering
- arxiv url: http://arxiv.org/abs/2405.07001v3
- Date: Wed, 02 Oct 2024 00:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:19:16.261848
- Title: ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering
- Title(参考訳): チャートインサイト:低レベル問合せ回答のためのマルチモーダル大言語モデルの評価
- Authors: Yifan Wu, Lutao Yan, Leixian Shen, Yunhai Wang, Nan Tang, Yuyu Luo,
- Abstract要約: マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。
本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。
低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
- 参考スコア(独自算出の注目度): 27.193293027128558
- License:
- Abstract: Chart question answering (ChartQA) tasks play a critical role in interpreting and extracting insights from visualization charts. While recent advancements in multimodal large language models (MLLMs) like GPT-4o have shown promise in high-level ChartQA tasks, such as chart captioning, their effectiveness in low-level ChartQA tasks (e.g., identifying correlations) remains underexplored. In this paper, we address this gap by evaluating MLLMs on low-level ChartQA using a newly curated dataset, ChartInsights, which consists of 22,347 (chart, task, query, answer) covering 10 data analysis tasks across 7 chart types. We systematically evaluate 19 advanced MLLMs, including 12 open-source and 7 closed-source models. The average accuracy rate across these models is 39.8%, with GPT-4o achieving the highest accuracy at 69.17%. To further explore the limitations of MLLMs in low-level ChartQA, we conduct experiments that alter visual elements of charts (e.g., changing color schemes, adding image noise) to assess their impact on the task effectiveness. Furthermore, we propose a new textual prompt strategy, Chain-of-Charts, tailored for low-level ChartQA tasks, which boosts performance by 14.41%, achieving an accuracy of 83.58%. Finally, incorporating a visual prompt strategy that directs attention to relevant visual elements further improves accuracy to 84.32%.
- Abstract(参考訳): チャート質問応答(ChartQA)タスクは、視覚化チャートから洞察を解釈し抽出する上で重要な役割を果たす。
GPT-4oのようなマルチモーダルな大規模言語モデル(MLLM)の最近の進歩は、チャートキャプションのようなハイレベルなChartQAタスクにおいて、その低レベルなChartQAタスク(例えば、相関を識別する)における有効性が未定であることを示している。
本稿では,7種類のチャートに対して10種類のデータ解析タスクをカバーする22,347個のチャートデータ(チャート,タスク,クエリ,回答)を新たにキュレートしたデータセットであるChartInsightsを用いて,低レベルのChartQA上でMLLMを評価することで,このギャップに対処する。
我々は、12のオープンソースモデルと7のクローズドソースモデルを含む、19の高度なMLLMを体系的に評価した。
これらのモデルの平均精度は39.8%であり、GPT-4oの精度は69.17%である。
低レベルチャートQAにおけるMLLMの限界をさらに探求するため、我々は、チャートの視覚的要素を変更する実験(例えば、色スキームの変更、画像ノイズの追加)を行い、タスクの有効性を評価する。
さらに、低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を実現した。
最後に、関連する視覚要素に注意を向ける視覚的プロンプト戦略を導入することで、さらに84.32%の精度が向上する。
関連論文リスト
- CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。
品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。
その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文 参考訳(メタデータ) (2024-06-26T17:50:11Z) - GraphEval2000: Benchmarking and Improving Large Language Models on Graph Datasets [19.329274124787858]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
近年の研究では、LLMがグラフ構造化データについて推論する能力の限界が特定されている。
グラフデータ構造問題40と2000のテストケースからなるグラフデータセットGraphEval2000を紹介する。
論文 参考訳(メタデータ) (2024-06-23T18:01:56Z) - GraphWiz: An Instruction-Following Language Model for Graph Problems [39.656196336071275]
GraphInstructは、言語モデルに明示的な推論パスを用いて、幅広いグラフ問題に対処する機能を持たせるために設計されたデータセットである。
GraphWizは、明確な推論プロセスを生成しながら、さまざまなグラフ問題タイプを解決できるオープンソースの言語モデルです。
拡張モデルであるGraphWiz-DPOは、9つのタスクで平均65%の精度を達成し、GPT-4を平均43.8%上回っている。
論文 参考訳(メタデータ) (2024-02-25T08:41:32Z) - Image and Data Mining in Reticular Chemistry Using GPT-4V [5.440238820637818]
GPT-4Vは、ChatGPTまたはAPIを通じてアクセス可能な、拡張された視覚機能を備えた大きな言語モデルである。
本研究は,GPT-4Vが金属-有機化合物の複雑なデータをナビゲートし,得ることができることを示す。
論文 参考訳(メタデータ) (2023-12-09T05:05:25Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection [51.43589678946244]
本稿では、一般的な視覚異常検出(AD)タスクにおけるVQA指向のGPT-4Vの可能性について検討する。
MVTec ADとVisAデータセットで定性的かつ定量的な評価を行ったのは、これが初めてである。
論文 参考訳(メタデータ) (2023-11-05T10:01:18Z) - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) [121.42924593374127]
我々は,最新のモデルであるGPT-4Vを分析し,LMMの理解を深める。
GPT-4Vは、任意にインターリーブされたマルチモーダル入力を処理するという前例のない能力により、強力なマルチモーダルジェネラリストシステムとなっている。
GPT-4Vの、入力画像に描かれた視覚マーカーを理解するユニークな能力は、新しい人間とコンピュータの相互作用方法をもたらす。
論文 参考訳(メタデータ) (2023-09-29T17:34:51Z) - GPT-4 Technical Report [116.90398195245983]
GPT-4は大規模なマルチモーダルモデルであり、画像やテキストの入力を受け取り、テキスト出力を生成することができる。
試験受験者の上位10%のスコアで模擬試験に合格するなど、さまざまな専門的、学術的なベンチマークで人間レベルのパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-15T17:15:04Z) - Investigating Pretrained Language Models for Graph-to-Text Generation [55.55151069694146]
Graph-to-text生成は、グラフベースのデータから流動的なテキストを生成することを目的としている。
本稿では,3つのグラフ領域,つまり表現,ウィキペディア知識グラフ(KG),科学的なKGについて検討する。
我々は, PLM の BART と T5 が新たな最先端の成果を達成し, タスク適応型事前学習戦略が性能をさらに向上することを示す。
論文 参考訳(メタデータ) (2020-07-16T16:05:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。