論文の概要: ChartAnchor: Chart Grounding with Structural-Semantic Fidelity
- arxiv url: http://arxiv.org/abs/2512.01017v1
- Date: Sun, 30 Nov 2025 18:28:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.542442
- Title: ChartAnchor: Chart Grounding with Structural-Semantic Fidelity
- Title(参考訳): ChartAnchor: 構造的セマンティックな忠実度を備えたチャートグラウンド
- Authors: Xinhang Li, Jingbo Zhou, Pengfei Luo, Yixiong Xiao, Tong Xu,
- Abstract要約: マルチモーダル大言語モデル(MLLM)の最近の進歩は、構造化チャートの理解を厳格に評価するベンチマークの必要性を強調している。
チャートグラウンド(英: Chart grounding)とは、チャートの視覚的外観と構造的意味論の間の双方向のアライメントを指す。
ChartAnchorは、8k以上のチャートテーブルコードトリプルのベンチマークである。
- 参考スコア(独自算出の注目度): 19.798612765001746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multimodal large language models (MLLMs) highlight the need for benchmarks that rigorously evaluate structured chart comprehension.Chart grounding refers to the bidirectional alignment between a chart's visual appearance and the structured semantics. This task requires models to produce a symbolic specification that faithfully captures the chart's visual and structural intent, while also recovering the underlying tabular data with precise values and relationships. Chart grounding directly reflects a model's capabilities in numerical reasoning, multimodal alignment, and structural reconstruction, and has several important applications in real-world scenarios.Existing benchmarks, constrained by narrow chart diversity, isolated tasks, and incomplete evaluation frameworks, fail to holistically assess grounding. To address this, we propose ChartAnchor, a comprehensive benchmark of 8k+ chart-table-code triples spanning 30 chart types drawn from diverse real-world and augmented sources. ChartAnchor introduces two complementary tasks: chart-to-code generation (synthesizing executable code to replicate charts) and controlled chart-to-table reconstruction (extracting exact data with predefined headers), enabling cross-validation of visual and numerical fidelity. A multi-level evaluation framework integrates semantic validation, stylistic analysis, and perceptual metrics to assess both structural and content-level correctness. Extensive experiments on MLLMs reveal critical limitations in numerical precision and code synthesis, emphasizing the need for structured reasoning beyond surface-level perception. By unifying symbolic and data-driven grounding, ChartAnchor establishes a rigorous foundation for chart grounding, offering meaningful insights for advancing MLLMs in scientific, financial, and industrial domains.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)の最近の進歩は、構造化チャートの理解度を厳格に評価するベンチマークの必要性を強調しており、チャートの視覚的外観と構造化セマンティクスとの間の双方向のアライメントを指している。
このタスクでは、グラフの視覚的および構造的意図を忠実に捉えながら、基礎となる表データを正確な値と関係で復元するシンボリック仕様を作成する必要がある。
グラフグラウンディングは,数値推論,マルチモーダルアライメント,構造再構成といったモデルの能力を直接反映し,実世界のシナリオにおいて重要な応用がいくつかある。
そこで本研究では,多種多様な実世界および拡張ソースから抽出された30種類のチャートタイプにまたがる8k以上のチャートテーブルコードトリプルの総合ベンチマークであるChartAnchorを提案する。
ChartAnchorは、チャートからコードへの生成(チャートを複製するために実行可能なコードを合成する)とコントロールされたチャートからテーブルへの再構成(事前に定義されたヘッダで正確なデータを抽出する)という2つの補完的なタスクを導入し、視覚的および数値的忠実さの相互検証を可能にする。
マルチレベル評価フレームワークは、セマンティックバリデーション、スタイリスティック分析、知覚メトリクスを統合して、構造的およびコンテンツレベルの正確性を評価する。
MLLMの大規模な実験により、数値精度とコード合成の限界が明らかになり、表面レベルの知覚を超えた構造的推論の必要性が強調された。
象徴的かつデータ駆動的な接地を統一することにより、ChartAnchorは、科学、金融、産業分野におけるMLLMの進歩に意味のある洞察を提供する、チャートの接地のための厳密な基盤を確立する。
関連論文リスト
- ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - ChartAB: A Benchmark for Chart Grounding & Dense Alignment [17.16234793106]
視覚言語モデル(VLM)の包括的評価を提供する新しいChartAlign Benchmark(ChartAB)を導入する。
新たな2段階推論ワークフローを導入することで、ベンチマークは2つのチャートにまたがる要素/属性の調整と比較を行うVLMの機能をさらに評価することができる。
我々の評価分析は、チャート理解における認知バイアス、弱さ、頑健さ、幻覚に対する新たな洞察を明らかにする。
論文 参考訳(メタデータ) (2025-10-30T17:56:31Z) - BigCharts-R1: Enhanced Chart Reasoning with Visual Reinforcement Finetuning [51.472854950300416]
視覚的に多様なチャート画像を生成するデータセット生成パイプラインであるBigChartsを提案する。
純粋な合成データセットとは異なり、BigChartsは現実世界のデータを取り込んで、信頼性と視覚的多様性を保証する。
チャート推論に特化して設計された新たな報酬信号を導入することにより,モデルの堅牢性と一般化が促進される。
論文 参考訳(メタデータ) (2025-08-13T13:39:17Z) - InterChart: Benchmarking Visual Reasoning Across Decomposed and Distributed Chart Information [44.79888692172093]
視覚言語モデル(VLM)が複数の関連チャートにどの程度うまく関連しているかを評価するための診断ベンチマークであるInterChartを紹介する。
ベンチマークは,個々のチャートに対する現実的推論,合成的に整合したチャートセット間の積分解析,視覚的に複雑な実世界のチャートペアに対する意味推論の3段階に分類する。
論文 参考訳(メタデータ) (2025-08-11T05:19:23Z) - Socratic Chart: Cooperating Multiple Agents for Robust SVG Chart Understanding [14.75820681491341]
既存のベンチマークでは、真の視覚的推論ではなく、テキストベースのショートカットと確率的パターンマッチングに依存している。
グラフ画像をスケーラブルベクトルグラフ表現に変換する新しいフレームワークであるSocratic Chartを提案する。
我々のフレームワークは、グラフプリミティブを正確にキャプチャし、推論性能を向上させるために最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-04-14T00:07:39Z) - Graph-Based Multimodal Contrastive Learning for Chart Question Answering [11.828192162922436]
この研究は、チャートコンポーネントとその基盤構造間の関係を明示的にモデル化する、新しいマルチモーダルシーングラフフレームワークを導入している。
このフレームワークは、視覚グラフとテキストグラフの両方を統合し、構造的特徴と意味的特徴をキャプチャする。
グラフの対照的な学習戦略は、トランスフォーマーデコーダをソフトプロンプトとしてシームレスに組み込むことができるように、モジュール間のノード表現を整列させる。
論文 参考訳(メタデータ) (2025-01-08T06:27:07Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。