論文の概要: Doc2Chart: Intent-Driven Zero-Shot Chart Generation from Documents
- arxiv url: http://arxiv.org/abs/2507.14819v1
- Date: Sun, 20 Jul 2025 04:34:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.073759
- Title: Doc2Chart: Intent-Driven Zero-Shot Chart Generation from Documents
- Title(参考訳): Doc2Chart: ドキュメントからのインテント駆動ゼロショットチャート生成
- Authors: Akriti Jain, Pritika Ramu, Aparna Garimella, Apoorv Saxena,
- Abstract要約: 文書から意図に基づくチャート生成の課題を紹介する。
ゴールは、意図に忠実なチャートを生成し、ゼロショット設定でドキュメントに基盤を置くことです。
本稿では,チャートの構造化テキスト表現を用いた属性に基づくメトリクスを提案する。
- 参考スコア(独自算出の注目度): 7.616682226138909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated strong capabilities in transforming text descriptions or tables to data visualizations via instruction-tuning methods. However, it is not straightforward to apply these methods directly for a more real-world use case of visualizing data from long documents based on user-given intents, as opposed to the user pre-selecting the relevant content manually. We introduce the task of intent-based chart generation from documents: given a user-specified intent and document(s), the goal is to generate a chart adhering to the intent and grounded on the document(s) in a zero-shot setting. We propose an unsupervised, two-staged framework in which an LLM first extracts relevant information from the document(s) by decomposing the intent and iteratively validates and refines this data. Next, a heuristic-guided module selects an appropriate chart type before final code generation. To assess the data accuracy of the generated charts, we propose an attribution-based metric that uses a structured textual representation of charts, instead of relying on visual decoding metrics that often fail to capture the chart data effectively. To validate our approach, we curate a dataset comprising of 1,242 $<$intent, document, charts$>$ tuples from two domains, finance and scientific, in contrast to the existing datasets that are largely limited to parallel text descriptions/ tables and their corresponding charts. We compare our approach with baselines using single-shot chart generation using LLMs and query-based retrieval methods; our method outperforms by upto $9$ points and $17$ points in terms of chart data accuracy and chart type respectively over the best baselines.
- Abstract(参考訳): LLM(Large Language Models)は、テキスト記述やテーブルをインストラクションチューニングによってデータビジュアライゼーションに変換する強力な機能を示している。
しかし、ユーザが手動で関連コンテンツを選択するのとは対照的に、ユーザ登録意図に基づいて長いドキュメントからデータを視覚化する、より現実的なユースケースにこれらの手法を直接適用することは容易ではない。
ユーザの指定した意図と文書が与えられた場合、目的は、意図に忠実なチャートを生成し、ゼロショット設定で文書に基礎を置くことである。
LLMは、意図を分解して文書から関連情報を抽出し、そのデータを反復的に検証し、精査する、教師なし2段階のフレームワークを提案する。
次に、ヒューリスティック誘導モジュールは最終コード生成前に適切なチャートタイプを選択する。
生成したチャートのデータ精度を評価するために,グラフの構造化されたテキスト表現を用いた属性ベースのメトリクスを提案する。
このアプローチを検証するため、並列テキスト記述やテーブルや対応するチャートに大きく制限されている既存のデータセットとは対照的に、金融と科学の2つの領域から1,242ドル<intent, document, charts$>$ tuplesからなるデータセットをキュレートする。
LLMとクエリベースの検索手法を用いたシングルショットチャート生成によるベースラインとの比較を行い,グラフデータ精度とチャートタイプにおいて最大9ドルポイントと17ドルポイントをそれぞれ最高のベースラインで比較した。
関連論文リスト
- Infogen: Generating Complex Statistical Infographics from Documents [29.46917658452633]
本稿では,複数のサブチャート(ライン,バー,パイなど)からなるインフォグラフィックを生成するタスクを紹介する。
そこで我々は,そのタイトルやテキストのインサイトを含むインフォグラフィックメタデータと,対応するデータやアライメントなどのサブチャート固有の詳細を定義する。
また、Infodatは、テキストとインフォグラフィックのメタデータ生成のための最初のベンチマークデータセットである。
論文 参考訳(メタデータ) (2025-07-26T19:38:46Z) - In-Depth and In-Breadth: Pre-training Multimodal Language Models Customized for Comprehensive Chart Understanding [113.17601814293722]
様々なチャートタイプにまたがる詳細なチャート理解に最適化されたLVLMであるChartScopeを紹介する。
そこで本研究では,多種多様なグラフ型のペアデータを生成する,効率的なデータ生成パイプラインを提案する。
また、異なるレベルでの質問回答だけでなく、基礎となるデータ理解を評価するための新しいベンチマークであるChartDQAも確立しました。
論文 参考訳(メタデータ) (2025-07-18T18:15:09Z) - ChartLens: Fine-grained Visual Attribution in Charts [106.44872805609673]
Post-Hoc Visual Attribution for Chartsは、所定のチャート関連応答を検証する詳細なチャート要素を特定する。
グラフオブジェクトの識別にセグメンテーションに基づく手法を用いた新しいチャート属性アルゴリズムであるChartLensを提案する。
評価の結果,ChartLensの微粒化属性は26-66%向上した。
論文 参考訳(メタデータ) (2025-05-25T23:17:32Z) - Boosting Text-to-Chart Retrieval through Training with Synthesized Semantic Insights [21.97276088041938]
既存のテキストからチャートへの検索ソリューションは、しばしばチャートのセマンティックコンテンツとコンテキスト情報をキャプチャするのに失敗する。
本稿では,グラフの階層的意味的洞察を自動的に合成する学習データ開発パイプラインを提案する。
私たちはCLIPベースのモデルChartFinderをトレーニングし、テキストからチャートへの検索のためのチャートのより良い表現を学習します。
論文 参考訳(メタデータ) (2025-05-15T07:41:14Z) - AskChart: Universal Chart Understanding through Textual Enhancement [20.075911012193494]
最先端のアプローチは、主にチャートイメージからの視覚的手がかりに焦点を当て、チャート内に埋め込まれたリッチテキスト情報を明示的に組み込むことができない。
AskChartは、Mixture of Experts (MoE)アーキテクチャを用いて、チャートからテキストと視覚の両方のキューを明示的に統合するユニバーサルモデルである。
論文 参考訳(メタデータ) (2024-12-26T09:59:43Z) - ChartLlama: A Multimodal LLM for Chart Understanding and Generation [70.1393163657813]
GPT-4を利用した高品質な命令チューニングデータセットを作成する。
次に、生成したデータセットを使ってトレーニングしたマルチモーダルな大規模言語モデルであるChartLlamaを紹介します。
論文 参考訳(メタデータ) (2023-11-27T15:20:23Z) - StructChart: On the Schema, Metric, and Augmentation for Visual Chart Understanding [54.45681512355684]
現在のチャート関連タスクは、ビジュアルチャートから情報を抽出するチャート認識か、抽出されたデータに基づいてチャート推論にフォーカスする。
我々はStructChartを紹介した。StructChartはStruct Triplet Representations(STR)を利用して、統一的でラベル効率のよいアプローチを実現する新しいフレームワークである。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - UniChart: A Universal Vision-language Pretrained Model for Chart
Comprehension and Reasoning [29.947053208614246]
We present UniChart, a pretrained model for chart comprehension and reasoning。
UniChartは、チャートの関連するテキスト、データ、および視覚要素をエンコードし、その後、チャートグラウンドのテキストデコーダを使用して、自然言語で期待される出力を生成する。
i) チャートから視覚要素(バーや線など)とデータを抽出する低レベルタスク、(ii) チャート理解と推論のスキルを得るための高レベルタスクなどである。
論文 参考訳(メタデータ) (2023-05-24T06:11:17Z) - Doc2SoarGraph: Discrete Reasoning over Visually-Rich Table-Text
Documents via Semantic-Oriented Hierarchical Graphs [79.0426838808629]
視覚的にリッチなテーブルテキスト文書に答えるTAT-DQAを提案する。
具体的には、離散推論機能を強化した新しいDoc2SoarGraphフレームワークを提案する。
我々は,TAT-DQAデータセットに関する広範な実験を行い,提案したフレームワークは,テストセット上でのエクサクティマッチ(EM)とF1スコアでそれぞれ17.73%,F1スコアで16.91%の最高のベースラインモデルを上回る結果を得た。
論文 参考訳(メタデータ) (2023-05-03T07:30:32Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。