論文の概要: START: Spatial and Textual Learning for Chart Understanding
- arxiv url: http://arxiv.org/abs/2512.07186v1
- Date: Mon, 08 Dec 2025 05:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.721659
- Title: START: Spatial and Textual Learning for Chart Understanding
- Title(参考訳): START:チャート理解のための空間的・テキスト的学習
- Authors: Zhuoming Liu, Xiaofeng Gao, Feiyang Niu, Qiaozi Gao, Liu Liu, Robinson Piramuthu,
- Abstract要約: chART理解のための空間的およびテクスチャ的学習であるSTARTを提案する。
i) チャート要素のグラウンド化と (ii) チャートからコードへの生成を導入し, チャートの視覚的レイアウトとデータ詳細に関するMLLMの理解を深める。
コード、データ、モデルは公開されます。
- 参考スコア(独自算出の注目度): 11.769123092079203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chart understanding is crucial for deploying multimodal large language models (MLLMs) in real-world scenarios such as analyzing scientific papers and technical reports. Unlike natural images, charts pair a structured visual layout (spatial property) with an underlying data representation (textual property) -- grasping both is essential for precise, fine-grained chart reasoning. Motivated by this observation, we propose START, the Spatial and Textual learning for chART understanding. Specifically, we introduce (i) chart-element grounding and (ii) chart-to-code generation to strengthen an MLLM's understanding of both chart visual layout and data details. To facilitate spatial and textual learning, we propose the START-Dataset generated with a novel data-generation pipeline that first leverages an MLLM to translate real chart images into executable chart code, recovering the underlying data representation while preserving the visual distribution of real-world charts. We then evolve the code with a Large Language Model (LLM) to ascertain the positions of chart elements that capture the chart's visual structure, addressing challenges that existing methods cannot handle. To evaluate a model's ability to understand chart spatial structures, we propose the Chart Spatial understanding Benchmark (CS-Bench), filling a critical gap in comprehensive chart understanding evaluation. Leveraging spatial and textual learning, START delivers consistent gains across model sizes and benchmarks over the base models and surpasses prior state-of-the-art by a clear margin. Code, data and models will be publicly available.
- Abstract(参考訳): チャート理解は、科学論文や技術報告などの実世界のシナリオにおいて、MLLM(Multimodal large language model)の展開に不可欠である。
自然画像とは異なり、チャートは構造化された視覚的レイアウト(空間的特性)と基礎となるデータ表現(テキスト的特性)をペアリングする。
そこで本研究では,chART理解のための空間的およびテクスチャ的学習であるSTARTを提案する。
具体的には
(i)チャート要素の接地・接地
(i)図形レイアウトとデータ詳細の両方に対するMLLMの理解を強化するために、チャート・ツー・コード生成を行う。
空間的およびテキスト的学習を容易にするために,MLLMを利用した新しいデータ生成パイプラインを作成したSTART-Datasetを提案する。
次に、LLM(Large Language Model)を使用してコードを進化させ、チャートの視覚構造をキャプチャするチャート要素の位置を確認し、既存のメソッドが処理できない課題に対処します。
グラフ空間構造を理解するためのモデルの能力を評価するために,チャート空間理解ベンチマーク(CS-Bench)を提案する。
空間的およびテキスト的学習を活用することで、STARTはモデルのサイズやベンチマークをベースモデルよりも一貫したゲインを提供し、最先端の最先端を明確なマージンで上回る。
コード、データ、モデルは公開されます。
関連論文リスト
- ChartAnchor: Chart Grounding with Structural-Semantic Fidelity [19.798612765001746]
チャートグラウンド(英: Chart grounding)とは、チャートの視覚的外観と構造的意味論の間の双方向のアライメントを指す。
ChartAnchorは、8k以上のチャートテーブルコードトリプルのベンチマークである。
マルチレベル評価フレームワークは、セマンティックバリデーション、スタイリスティック分析、知覚メトリクスを統合して、構造的およびコンテンツレベルの正確性を評価する。
論文 参考訳(メタデータ) (2025-11-30T18:28:09Z) - ChartPoint: Guiding MLLMs with Grounding Reflection for Chart Reasoning [54.86473583610112]
グラフの連鎖推論に反射的相互作用を統合するPointCoTを提案する。
位置アノテーションに基づいてMLLMにバウンディングボックスと再レンダリングチャートを生成することで、テキスト推論ステップと視覚的接地領域の接続を確立する。
我々は、いくつかのグラフベンチマークにおいて最先端のモデルであるChartPointQ2とChartPointQ2.5を開発した。
論文 参考訳(メタデータ) (2025-11-29T04:01:55Z) - ChartAdapter: Large Vision-Language Model for Chart Summarization [13.499376163294816]
ChartAdapterは、チャートとテキスト要約の間のギャップを埋めるために設計された軽量トランスフォーマーモジュールである。
LLMとChartAdapterを統合することで、エンドツーエンドのトレーニングと効率的なチャート要約を可能にします。
論文 参考訳(メタデータ) (2024-12-30T05:07:34Z) - On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - ChartGemma: Visual Instruction-tuning for Chart Reasoning in the Wild [28.643565008567172]
本稿では,PaliGemma上で開発された新しいチャート理解と推論モデルであるChartGemmaを紹介する。
基礎となるデータテーブルに頼るのではなく、ChartGemmaは、チャートイメージから直接生成されたインストラクションチューニングデータに基づいて訓練される。
我々の単純なアプローチは、チャートの要約、質問応答、ファクトチェックにまたがる5ドルのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-07-04T22:16:40Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。