Fugu-MT 論文翻訳(概要): ChartBench: A Benchmark for Complex Visual Reasoning in Charts

論文の概要: ChartBench: A Benchmark for Complex Visual Reasoning in Charts

arxiv url: http://arxiv.org/abs/2312.15915v1
Date: Tue, 26 Dec 2023 07:20:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-27 15:45:41.673559
Title: ChartBench: A Benchmark for Complex Visual Reasoning in Charts
Title（参考訳）: ChartBench: チャートの複雑なビジュアル推論のためのベンチマーク
Authors: Zhengzhuo Xu, Sinan Du, Yiyan Qi, Chengjin Xu, Chun Yuan, Jian Guo
Abstract要約: MLLMの基本的なチャート理解とデータの信頼性を評価するための総合的なベンチマークであるChartBenchを紹介する。具体的には、 textbf41 カテゴリ、 textbf2K チャート、 textbf16K QA アノテーションで構成される。 ChartBenchはグラフの種類を大幅に拡大する一方で、データポイントの直接的なラベル付けを回避している。
参考スコア（独自算出の注目度）: 38.66840297139763
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal Large Language Models (MLLMs) have demonstrated remarkable multimodal understanding and generation capabilities. However, their understanding of synthetic charts is limited, while existing benchmarks are simplistic and the charts deviate significantly from real-world examples, making it challenging to accurately assess MLLMs' chart comprehension abilities. Hence, a challenging benchmark is essential for investigating progress and uncovering the limitations of current MLLMs on chart data. In this work, we propose to examine chart comprehension through more complex visual logic and introduce ChartBench, a comprehensive chart benchmark to accurately measure MLLMs' fundamental chart comprehension and data reliability. Specifically, ChartBench consists of \textbf{41} categories, \textbf{2K} charts, and \textbf{16K} QA annotations. While significantly expanding chart types, ChartBench avoids direct labelling of data points, which requires MLLMs to infer values akin to humans by leveraging elements like color, legends, and coordinate systems. We also introduce an improved metric, \textit{Acc+}, which accurately reflects MLLMs' chart comprehension abilities while avoiding labor-intensive manual evaluations or costly GPT-based evaluations. We conduct evaluations on \textbf{12} mainstream open-source models and \textbf{2} outstanding proprietary models. Through extensive experiments, we reveal the limitations of MLLMs on charts and provide insights to inspire the community to pay closer attention to MLLMs' chart comprehension abilities. The benchmark and code will be publicly available for research.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)は,マルチモーダルな理解と生成能力を示す。しかし、それらの合成チャートの理解は限られており、既存のベンチマークは単純であり、実際の例とは大きく異なるため、MLLMのチャート理解能力を正確に評価することは困難である。したがって、グラフデータ上での現在のMLLMの限界を明らかにするためには、挑戦的なベンチマークが不可欠である。本稿では,より複雑なビジュアル論理によるチャート理解について検討し,MLLMの基本的チャート理解とデータの信頼性を正確に測定するチャートベンチマークであるChartBenchを紹介する。具体的には、ChartBench は \textbf{41} カテゴリ、 \textbf{2K} チャート、 \textbf{16K} QA アノテーションから構成される。チャートタイプを著しく拡大する一方で、chartbenchはデータポイントの直接ラベル付けを避け、色、伝説、座標系などの要素を利用して、mllmは人間に似た値を推論する必要がある。また,労働集約的な手作業評価やGPTに基づくコストの高い評価を回避しつつ,MLLMのチャート理解能力を正確に反映した改善された指標である‘textit{Acc+} も導入した。本稿では,主要なオープンソースモデルであるtextbf{12} と,優れたプロプライエタリモデルの評価を行う。広範な実験を通じて,MLLMのチャート上の限界を明らかにするとともに,MLLMのチャート理解能力に深い注意を払うための洞察を提供する。ベンチマークとコードは研究対象として公開される予定だ。

関連論文リスト

ChartM$^3$: Benchmarking Chart Editing with Multimodal Instructions [65.21061221740388]
本稿では,ユーザ意図を自然言語と視覚指標の組み合わせで表現する,マルチモーダルチャート編集のための新しいパラダイムを提案する。マルチモードチャート編集のための新しいベンチマークであるChart$textM3$を,マルチレベル複雑度とマルチパースペクティブ評価で提示する。
論文参考訳（メタデータ） (2025-07-25T13:30:14Z)
ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文参考訳（メタデータ） (2025-05-25T23:17:32Z)
InfoChartQA: A Benchmark for Multimodal Question Answering on Infographic Charts [16.465569022128324]
InfoChartQAは、インフォグラフィックチャートの理解に基づいてマルチモーダル大言語モデル(MLLM)を評価するためのベンチマークである。 5,642組のインフォグラフィックと平易なチャートが含まれており、それぞれが同じ基礎データを共有するが、視覚的な表示では異なる。視覚的要素に基づく質問を設計し、そのユニークな視覚的デザインとコミュニケーション意図を捉える。
論文参考訳（メタデータ） (2025-05-25T08:28:03Z)
Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文参考訳（メタデータ） (2025-04-14T00:07:39Z)
RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文参考訳（メタデータ） (2025-03-29T15:50:08Z)
Distill Visual Chart Reasoning Ability from LLMs to MLLMs [38.62832112530892]
マルチモーダル大言語モデル(MLLM)における複雑なチャートQ&Aタスクの解決には高度な視覚的推論能力が必要である我々は,LLMからMLLMへの視覚的推論能力を蒸留するための費用効率,効率的,スケーラブルなデータ合成法であるCode-as-Intermediary Translation (CIT)を提案する。我々は、テキストベースの合成技術を用いて、チャート作成コードを構築し、3kの推論集約チャートと20kのQ&Aペアを含むデータセットであるReachQAを作成した。
論文参考訳（メタデータ） (2024-10-24T14:50:42Z)
On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文参考訳（メタデータ） (2024-07-19T17:58:36Z)
CharXiv: Charting Gaps in Realistic Chart Understanding in Multimodal LLMs [62.84082370758761]
CharXivは、arXiv論文の2,323のチャートを含む総合的な評価スイートである。品質を確保するために、すべてのチャートと質問は、人間の専門家によって手書きされ、キュレーションされ、検証されます。その結果、最強のプロプライエタリモデルの推論スキルの間に、かなり過小評価されていたギャップが明らかとなった。
論文参考訳（メタデータ） (2024-06-26T17:50:11Z)
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation [42.945960365307485]
我々は,大規模マルチモーダルモデル(LMM)の視覚的なコード生成能力を評価することを目的とした,新しいベンチマークであるChartMimicを導入する。 ChartMimicには1,000の人造(図、命令、コード)の三つ子が含まれている。既存のコード生成ベンチマークとは異なり、ChartMimicは認知能力のブレンドを調和させるLMMの能力を評価することに重点を置いている。
論文参考訳（メタデータ） (2024-06-14T12:10:51Z)
ChartInsights: Evaluating Multimodal Large Language Models for Low-Level Chart Question Answering [27.193293027128558]
マルチモーダルな大言語モデル (MLLM) は、高レベルなChartQAタスクにおいて有望であるが、低レベルなChartQAタスクにおけるそれらの有効性はまだ未定である。本稿では, MLLMを低レベルチャートQA上で新たにキュレートしたデータセットであるChartInsightsを用いて評価する。低レベルのChartQAタスクに適した新しいテキストプロンプト戦略であるChain-of-Chartsを提案し、パフォーマンスを14.41%向上させ、83.58%の精度を達成する。
論文参考訳（メタデータ） (2024-05-11T12:33:46Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartX & ChartVLM: A Versatile Benchmark and Foundation Model for Complicated Chart Reasoning [54.82612435284695]
我々は、チャート領域における既製のマルチモーダル言語モデル(MLLM)の能力をベンチマークする。 ChartXは18種類のチャートタイプ,7つのチャートタスク,22のディシプリナトピック,高品質なチャートデータを含むマルチモーダルな評価セットである。我々は、解釈可能なパターンに強く依存するマルチモーダルタスクに対する新しい視点を提供するため、ChartVLMを開発した。
論文参考訳（メタデータ） (2024-02-19T14:48:23Z)
MMC: Advancing Multimodal Chart Understanding with Large-scale Instruction Tuning [48.63002688222462]
グラフの抽象的な構成要素が異なるため、チャートイメージ理解の領域にギャップが残っている。多様なタスクとチャートタイプをサポートする600kインスタンスからなる大規模マルチモーダルチャートインストラクションデータセットを提案する。我々は既存のグラフQAベンチマークで最先端性能を実現するLMMであるMultiModal Chart Assistant(textbfMMC-A)を開発した。
論文参考訳（メタデータ） (2023-11-15T23:36:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。