Fugu-MT 論文翻訳(概要): ChartCards: A Chart-Metadata Generation Framework for Multi-Task Chart Understanding

論文の概要: ChartCards: A Chart-Metadata Generation Framework for Multi-Task Chart Understanding

arxiv url: http://arxiv.org/abs/2505.15046v1
Date: Wed, 21 May 2025 03:07:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-22 15:42:58.830661
Title: ChartCards: A Chart-Metadata Generation Framework for Multi-Task Chart Understanding
Title（参考訳）: ChartCards: マルチタスクチャート理解のためのチャートメタデータ生成フレームワーク
Authors: Yifan Wu, Lutao Yan, Leixian Shen, Yinan Mei, Jiannan Wang, Yuyu Luo,
Abstract要約: マルチタスクチャート理解のための統合チャートメタタ生成フレームワークであるChartCardsを提案する。 ChartCardsを用いて,10,862データテーブル,85Kチャート,170Kチャートキャプションを含む大規模高品質データセットであるMetaChartを構築した。 MetaChartの6つのモデルを微調整した結果、すべてのタスクの平均性能は5%向上した。
参考スコア（独自算出の注目度）: 18.857927344450932
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The emergence of Multi-modal Large Language Models (MLLMs) presents new opportunities for chart understanding. However, due to the fine-grained nature of these tasks, applying MLLMs typically requires large, high-quality datasets for task-specific fine-tuning, leading to high data collection and training costs. To address this, we propose ChartCards, a unified chart-metadata generation framework for multi-task chart understanding. ChartCards systematically synthesizes various chart information, including data tables, visualization code, visual elements, and multi-dimensional semantic captions. By structuring this information into organized metadata, ChartCards enables a single chart to support multiple downstream tasks, such as text-to-chart retrieval, chart summarization, chart-to-table conversion, chart description, and chart question answering. Using ChartCards, we further construct MetaChart, a large-scale high-quality dataset containing 10,862 data tables, 85K charts, and 170 K high-quality chart captions. We validate the dataset through qualitative crowdsourcing evaluations and quantitative fine-tuning experiments across various chart understanding tasks. Fine-tuning six different models on MetaChart resulted in an average performance improvement of 5% across all tasks. The most notable improvements are seen in text-to-chart retrieval and chart-to-table tasks, with Long-CLIP and Llama 3.2-11B achieving improvements of 17% and 28%, respectively.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)の出現は,チャート理解に新たな機会をもたらす。しかしながら、これらのタスクのきめ細かい性質のため、MLLMの適用は通常、タスク固有の微調整のために大きな、高品質なデータセットを必要とするため、高いデータ収集とトレーニングコストが発生する。そこで本稿では,マルチタスクチャート理解のためのチャートメタ生成フレームワークであるChartCardsを提案する。 ChartCardsは、データテーブル、ビジュアライゼーションコード、ビジュアル要素、多次元セマンティックキャプションなど、さまざまなチャート情報を体系的に合成する。この情報を整理されたメタデータに構造化することで、ChartCardsは単一のチャートで、テキストからチャートへの検索、チャート要約、チャートからテーブルへの変換、チャート記述、チャート質問応答など、複数のダウンストリームタスクをサポートすることができる。さらに,ChartCardsを用いて,10,862データテーブル,85Kチャート,170Kチャートキャプションを含む大規模高品質データセットであるMetaChartを構築した。定性的なクラウドソーシング評価と,各種チャート理解タスクを対象とした定量的微調整実験により,データセットの検証を行った。 MetaChartの6つのモデルを微調整した結果、すべてのタスクの平均性能は5%向上した。最も顕著な改善点は、Long-CLIPとLlama 3.2-11Bでそれぞれ17%と28%の改善を実現したテキスト・ツー・チャート検索とチャート・ツー・テーブルタスクである。

関連論文リスト

ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文参考訳（メタデータ） (2025-05-25T23:17:32Z)
AskChart: Universal Chart Understanding through Textual Enhancement [20.075911012193494]
最先端のアプローチは、主にチャートイメージからの視覚的手がかりに焦点を当て、チャート内に埋め込まれたリッチテキスト情報を明示的に組み込むことができない。 AskChartは、Mixture of Experts (MoE)アーキテクチャを用いて、チャートからテキストと視覚の両方のキューを明示的に統合するユニバーサルモデルである。
論文参考訳（メタデータ） (2024-12-26T09:59:43Z)
TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。 TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文参考訳（メタデータ） (2024-04-25T14:23:24Z)
ChartAssisstant: A Universal Chart Multimodal Language Model via Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。 2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文参考訳（メタデータ） (2024-01-04T17:51:48Z)
ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文参考訳（メタデータ） (2023-11-27T15:20:23Z)
StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文参考訳（メタデータ） (2023-09-20T12:51:13Z)
UniChart: A Universal Vision-language Pretrained Model for Chart Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。 UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。 i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文参考訳（メタデータ） (2023-05-24T06:11:17Z)
ChartReader: A Unified Framework for Chart Derendering and Comprehension without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文参考訳（メタデータ） (2023-04-05T00:25:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。