論文の概要: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models
- arxiv url: http://arxiv.org/abs/2403.12027v2
- Date: Mon, 25 Mar 2024 17:39:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 21:24:37.977776
- Title: From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models
- Title(参考訳): Pixelsからインサイトへ:大規模基盤モデルの時代における自動チャート理解に関する調査
- Authors: Kung-Hsiang Huang, Hou Pong Chan, Yi R. Fung, Haoyi Qiu, Mingyang Zhou, Shafiq Joty, Shih-Fu Chang, Heng Ji,
- Abstract要約: グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
- 参考スコア(独自算出の注目度): 98.41645229835493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data visualization in the form of charts plays a pivotal role in data analysis, offering critical insights and aiding in informed decision-making. Automatic chart understanding has witnessed significant advancements with the rise of large foundation models in recent years. Foundation models, such as large language models, have revolutionized various natural language processing tasks and are increasingly being applied to chart understanding tasks. This survey paper provides a comprehensive overview of the recent developments, challenges, and future directions in chart understanding within the context of these foundation models. We review fundamental building blocks crucial for studying chart understanding tasks. Additionally, we explore various tasks and their evaluation metrics and sources of both charts and textual inputs. Various modeling strategies are then examined, encompassing both classification-based and generation-based approaches, along with tool augmentation techniques that enhance chart understanding performance. Furthermore, we discuss the state-of-the-art performance of each task and discuss how we can improve the performance. Challenges and future directions are addressed, highlighting the importance of several topics, such as domain-specific charts, lack of efforts in developing evaluation metrics, and agent-oriented settings. This survey paper serves as a comprehensive resource for researchers and practitioners in the fields of natural language processing, computer vision, and data analysis, providing valuable insights and directions for future research in chart understanding leveraging large foundation models. The studies mentioned in this paper, along with emerging new research, will be continually updated at: https://github.com/khuangaf/Awesome-Chart-Understanding.
- Abstract(参考訳): グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
自動チャート理解は、近年の大規模基盤モデルの台頭とともに、大きな進歩をみせている。
大規模言語モデルのような基礎モデルは、様々な自然言語処理タスクに革命をもたらし、チャート理解タスクにますます応用されている。
本稿では,これらの基礎モデルの文脈におけるチャート理解の最近の展開,課題,今後の方向性について概観する。
本稿では,チャート理解タスク研究に不可欠な基本構造ブロックについて概説する。
さらに、様々なタスクとその評価指標と、チャートとテキスト入力の両方のソースについて検討する。
次に、分類ベースと生成ベースの両方のアプローチと、チャート理解性能を高めるツール拡張技術を含む、様々なモデリング戦略について検討する。
さらに、各タスクの最先端性能について論じ、その性能を改善する方法について論じる。
課題と今後の方向性に対処し、ドメイン固有のチャート、評価指標の開発への努力の欠如、エージェント指向の設定など、いくつかのトピックの重要性を強調している。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の総合的な資源として機能し,大規模基盤モデルを活用したチャート理解における今後の研究に有用な洞察と方向性を提供する。
この論文で言及された研究は、新しい研究とともに、次のように継続的に更新される。
関連論文リスト
- ChartThinker: A Contextual Chain-of-Thought Approach to Optimized Chart Summarization [32.19963543411396]
本研究は,各チャートに包括的チャートキャプチャペアと微調整命令の大規模データセットを構築した。
本稿では,思考の連鎖に基づいて深い分析を合成する,革新的なチャート要約手法であるChartThinkerを提案する。
キュレートされたデータセットに基づいて、トレーニングされたモデルは、チャートの要約タスクにおいて、常に優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-03-17T14:49:09Z) - Graph Learning under Distribution Shifts: A Comprehensive Survey on
Domain Adaptation, Out-of-distribution, and Continual Learning [53.81365215811222]
グラフ学習の文脈における分布変化に対処する最新のアプローチ、戦略、洞察のレビューと要約を提供する。
既存のグラフ学習手法を,グラフ領域適応学習,グラフ配布学習,グラフ連続学習など,いくつかの重要なシナリオに分類する。
本稿では,この領域における現状を体系的に分析し,分散シフト下でのグラフ学習の可能性と今後の方向性について論じる。
論文 参考訳(メタデータ) (2024-02-26T07:52:40Z) - Few-Shot Learning on Graphs: from Meta-learning to Pre-training and
Prompting [56.25730255038747]
この調査は、最近の展開を合成し、比較洞察を提供し、将来の方向性を特定するための取り組みである。
我々は,既存の研究をメタラーニングアプローチ,事前学習アプローチ,ハイブリッドアプローチの3つの主要なファミリーに体系的に分類した。
これらの手法間の関係を解析し,その強みと限界を比較する。
論文 参考訳(メタデータ) (2024-02-02T14:32:42Z) - A Survey of Data-Efficient Graph Learning [16.053913182723143]
研究フロンティアとして,データ効率グラフ学習(DEGL)の新たな概念を紹介した。
我々は、自己教師付きグラフ学習、半教師付きグラフ学習、少数ショットグラフ学習など、いくつかの重要な側面に関する最近の進歩を体系的にレビューした。
論文 参考訳(メタデータ) (2024-02-01T09:28:48Z) - Towards Graph Foundation Models: A Survey and Beyond [66.37994863159861]
ファンデーションモデルは、さまざまな人工知能アプリケーションにおいて重要なコンポーネントとして現れてきた。
基礎モデルがグラフ機械学習研究者を一般化し、適応させる能力は、新しいグラフ学習パラダイムを開発する可能性について議論する。
本稿では,グラフ基礎モデル(GFM)の概念を紹介し,その重要な特徴と基礎技術について概説する。
論文 参考訳(メタデータ) (2023-10-18T09:31:21Z) - A Survey of Imbalanced Learning on Graphs: Problems, Techniques, and
Future Directions [64.84521350148513]
グラフは、現実世界の無数に存在する相互接続構造を表す。
グラフ学習方法のような効果的なグラフ分析により、ユーザはグラフデータから深い洞察を得ることができる。
しかし、これらの手法はデータ不均衡に悩まされることが多く、グラフデータでは、あるセグメントが豊富なデータを持っているのに、他のセグメントが不足しているのが一般的な問題である。
これは、より正確で代表的な学習結果のために、これらのデータ分散スキューを補正することを目的として、グラフ上の不均衡学習の出現する分野を必要とする。
論文 参考訳(メタデータ) (2023-08-26T09:11:44Z) - GPT4Graph: Can Large Language Models Understand Graph Structured Data ?
An Empirical Evaluation and Benchmarking [17.7473474499538]
ChatGPTのような大規模言語モデルは、人工知能にとって欠かせないものとなっている。
本研究では,グラフデータの解釈において,LLMの精度を評価するための調査を行う。
この知見は,言語モデルとグラフ理解のギャップを埋めるための貴重な洞察に寄与する。
論文 参考訳(メタデータ) (2023-05-24T11:53:19Z) - Graph Pooling for Graph Neural Networks: Progress, Challenges, and
Opportunities [128.55790219377315]
グラフニューラルネットワークは多くのグラフレベルのタスクの主要なアーキテクチャとして登場した。
グラフプーリングは、グラフ全体の全体的グラフレベル表現を得るためには不可欠である。
論文 参考訳(メタデータ) (2022-04-15T04:02:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。