論文の概要: ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation
- arxiv url: http://arxiv.org/abs/2505.18668v1
- Date: Sat, 24 May 2025 12:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.579572
- Title: ChartGalaxy: A Dataset for Infographic Chart Understanding and Generation
- Title(参考訳): ChartGalaxy: インフォグラフィックチャートの理解と生成のためのデータセット
- Authors: Zhen Li, Yukai Guo, Duan Li, Xinyuan Guo, Bowen Li, Lanxi Xiao, Shenyu Qiao, Jiashu Chen, Zijian Wu, Hui Zhang, Xinhuan Shu, Shixia Liu,
- Abstract要約: インフォグラフィックチャートの理解を促進するために設計された100万規模のデータセットであるChartGalaxyを紹介する。
データセットは、実際のインフォグラフィックチャートから75のチャートタイプ、330のチャートバリエーション、68のテンプレートを識別するインダクティブプロセスによって構築される。
1)微調整によるインフォグラフィックチャート理解の改善,2)インフォグラフィックチャートのベンチマークコード生成,3)インフォグラフィックチャート生成の実現。
- 参考スコア(独自算出の注目度): 16.452660608535002
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Infographic charts are a powerful medium for communicating abstract data by combining visual elements (e.g., charts, images) with textual information. However, their visual and structural richness poses challenges for large vision-language models (LVLMs), which are typically trained on plain charts. To bridge this gap, we introduce ChartGalaxy, a million-scale dataset designed to advance the understanding and generation of infographic charts. The dataset is constructed through an inductive process that identifies 75 chart types, 330 chart variations, and 68 layout templates from real infographic charts and uses them to create synthetic ones programmatically. We showcase the utility of this dataset through: 1) improving infographic chart understanding via fine-tuning, 2) benchmarking code generation for infographic charts, and 3) enabling example-based infographic chart generation. By capturing the visual and structural complexity of real design, ChartGalaxy provides a useful resource for enhancing multimodal reasoning and generation in LVLMs.
- Abstract(参考訳): インフォグラフィックチャートは、ビジュアル要素(例えば、チャート、画像)とテキスト情報を組み合わせて抽象データを伝達する強力な媒体である。
しかし、その視覚的・構造的豊かさは、通常平易なチャート上で訓練される大きな視覚言語モデル(LVLM)に課題をもたらす。
このギャップを埋めるために、インフォグラフィックチャートの理解と生成を促進するために設計された100万規模のデータセットであるChartGalaxyを紹介します。
データセットは、75のチャートタイプ、330のチャートバリエーション、68のレイアウトテンプレートを実際のインフォグラフィックチャートから識別し、プログラムで合成テンプレートを作成するインダクティブプロセスによって構築される。
このデータセットの有用性を以下に示す。
1)微調整によるインフォグラフィックチャート理解の改善
2)インフォグラフィックチャートのベンチマークコード生成
3)例ベースのインフォグラフィックチャート作成を可能にする。
リアルデザインの視覚的および構造的複雑さを捉えることで、ChartGalaxyはLVLMにおけるマルチモーダル推論と生成の強化に有用なリソースを提供する。
関連論文リスト
- Text2Chart31: Instruction Tuning for Chart Generation with Automatic Feedback [37.275533538711436]
階層的なパイプラインとグラフ生成のための新しいデータセットを提案する。
私たちのデータセットであるText2Chart31には、Matplotlibライブラリを参照する31のユニークなプロットタイプが含まれています。
本稿では,人間からのフィードバックを必要とせず,グラフ生成タスクのための強化学習に基づく指導指導手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T07:25:56Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。