論文の概要: ChartAB: A Benchmark for Chart Grounding & Dense Alignment
- arxiv url: http://arxiv.org/abs/2510.26781v1
- Date: Thu, 30 Oct 2025 17:56:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-31 16:05:09.963589
- Title: ChartAB: A Benchmark for Chart Grounding & Dense Alignment
- Title(参考訳): ChartAB: Chart Grounding and Dense Alignmentのベンチマーク
- Authors: Aniruddh Bansal, Davit Soselia, Dang Nguyen, Tianyi Zhou,
- Abstract要約: 視覚言語モデル(VLM)の包括的評価を提供する新しいChartAlign Benchmark(ChartAB)を導入する。
新たな2段階推論ワークフローを導入することで、ベンチマークはVLMの2つのチャートにまたがる要素/属性を調整および比較する能力をさらに評価することができる。
近年のVLM評価では, 認知バイアス, 弱さ, 頑健さ, 幻覚に対する新たな知見が得られた。
- 参考スコア(独自算出の注目度): 17.16234793106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Charts play an important role in visualization, reasoning, data analysis, and the exchange of ideas among humans. However, existing vision-language models (VLMs) still lack accurate perception of details and struggle to extract fine-grained structures from charts. Such limitations in chart grounding also hinder their ability to compare multiple charts and reason over them. In this paper, we introduce a novel "ChartAlign Benchmark (ChartAB)" to provide a comprehensive evaluation of VLMs in chart grounding tasks, i.e., extracting tabular data, localizing visualization elements, and recognizing various attributes from charts of diverse types and complexities. We design a JSON template to facilitate the calculation of evaluation metrics specifically tailored for each grounding task. By incorporating a novel two-stage inference workflow, the benchmark can further evaluate VLMs' capability to align and compare elements/attributes across two charts. Our analysis of evaluations on several recent VLMs reveals new insights into their perception biases, weaknesses, robustness, and hallucinations in chart understanding. These findings highlight the fine-grained discrepancies among VLMs in chart understanding tasks and point to specific skills that need to be strengthened in current models.
- Abstract(参考訳): チャートは、可視化、推論、データ分析、人間間のアイデアの交換において重要な役割を果たす。
しかし、既存の視覚言語モデル (VLM) は詳細を正確に認識しておらず、チャートから微細な構造を引き出すのに苦労している。
チャートグラウンディングのこのような制限は、複数のチャートを比較したり、それらについて理屈を定めたりする能力を妨げている。
本稿では,表表データの抽出,可視化要素のローカライズ,多種多様な種類や複雑さのチャートからの様々な属性の認識など,表在化タスクにおけるVLMの包括的評価を提供する,新しいChartAlign Benchmark(ChartAB)を提案する。
我々は,各グラウンド処理に適した評価指標の計算を容易にするために,JSONテンプレートを設計する。
新たな2段階推論ワークフローを導入することで、ベンチマークはVLMの2つのチャートにまたがる要素/属性を調整および比較する能力をさらに評価することができる。
近年のVLM評価では, 認知バイアス, 弱さ, 頑健さ, 幻覚に対する新たな知見が得られた。
これらの結果は、チャート理解タスクにおけるVLM間の微妙な相違点と、現在のモデルで強化される必要がある特定のスキルを指し示している。
関連論文リスト
- ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - RefChartQA: Grounding Visual Answer on Chart Images through Instruction Tuning [63.599057862999]
RefChartQAは、Chart Question Answering(ChartQA)とビジュアルグラウンドを統合した、新しいベンチマークである。
実験により,グラウンド化による空間認識を取り入れることで,応答精度が15%以上向上することが実証された。
論文 参考訳(メタデータ) (2025-03-29T15:50:08Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。