論文の概要: ChartCards: A Chart-Metadata Generation Framework for Multi-Task Chart Understanding
- arxiv url: http://arxiv.org/abs/2505.15046v1
- Date: Wed, 21 May 2025 03:07:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.830661
- Title: ChartCards: A Chart-Metadata Generation Framework for Multi-Task Chart Understanding
- Title(参考訳): ChartCards: マルチタスクチャート理解のためのチャートメタデータ生成フレームワーク
- Authors: Yifan Wu, Lutao Yan, Leixian Shen, Yinan Mei, Jiannan Wang, Yuyu Luo,
- Abstract要約: マルチタスクチャート理解のための統合チャートメタタ生成フレームワークであるChartCardsを提案する。
ChartCardsを用いて,10,862データテーブル,85Kチャート,170Kチャートキャプションを含む大規模高品質データセットであるMetaChartを構築した。
MetaChartの6つのモデルを微調整した結果、すべてのタスクの平均性能は5%向上した。
- 参考スコア(独自算出の注目度): 18.857927344450932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of Multi-modal Large Language Models (MLLMs) presents new opportunities for chart understanding. However, due to the fine-grained nature of these tasks, applying MLLMs typically requires large, high-quality datasets for task-specific fine-tuning, leading to high data collection and training costs. To address this, we propose ChartCards, a unified chart-metadata generation framework for multi-task chart understanding. ChartCards systematically synthesizes various chart information, including data tables, visualization code, visual elements, and multi-dimensional semantic captions. By structuring this information into organized metadata, ChartCards enables a single chart to support multiple downstream tasks, such as text-to-chart retrieval, chart summarization, chart-to-table conversion, chart description, and chart question answering. Using ChartCards, we further construct MetaChart, a large-scale high-quality dataset containing 10,862 data tables, 85K charts, and 170 K high-quality chart captions. We validate the dataset through qualitative crowdsourcing evaluations and quantitative fine-tuning experiments across various chart understanding tasks. Fine-tuning six different models on MetaChart resulted in an average performance improvement of 5% across all tasks. The most notable improvements are seen in text-to-chart retrieval and chart-to-table tasks, with Long-CLIP and Llama 3.2-11B achieving improvements of 17% and 28%, respectively.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の出現は,チャート理解に新たな機会をもたらす。
しかしながら、これらのタスクのきめ細かい性質のため、MLLMの適用は通常、タスク固有の微調整のために大きな、高品質なデータセットを必要とするため、高いデータ収集とトレーニングコストが発生する。
そこで本稿では,マルチタスクチャート理解のためのチャートメタ生成フレームワークであるChartCardsを提案する。
ChartCardsは、データテーブル、ビジュアライゼーションコード、ビジュアル要素、多次元セマンティックキャプションなど、さまざまなチャート情報を体系的に合成する。
この情報を整理されたメタデータに構造化することで、ChartCardsは単一のチャートで、テキストからチャートへの検索、チャート要約、チャートからテーブルへの変換、チャート記述、チャート質問応答など、複数のダウンストリームタスクをサポートすることができる。
さらに,ChartCardsを用いて,10,862データテーブル,85Kチャート,170Kチャートキャプションを含む大規模高品質データセットであるMetaChartを構築した。
定性的なクラウドソーシング評価と,各種チャート理解タスクを対象とした定量的微調整実験により,データセットの検証を行った。
MetaChartの6つのモデルを微調整した結果、すべてのタスクの平均性能は5%向上した。
最も顕著な改善点は、Long-CLIPとLlama 3.2-11Bでそれぞれ17%と28%の改善を実現したテキスト・ツー・チャート検索とチャート・ツー・テーブルタスクである。
関連論文リスト
- AskChart: Universal Chart Understanding through Textual Enhancement [20.075911012193494]
最先端のアプローチは、主にチャートイメージからの視覚的手がかりに焦点を当て、チャート内に埋め込まれたリッチテキスト情報を明示的に組み込むことができない。
AskChartは、Mixture of Experts (MoE)アーキテクチャを用いて、チャートからテキストと視覚の両方のキューを明示的に統合するユニバーサルモデルである。
論文 参考訳(メタデータ) (2024-12-26T09:59:43Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。