論文の概要: ChartEye: A Deep Learning Framework for Chart Information Extraction
- arxiv url: http://arxiv.org/abs/2408.16123v1
- Date: Wed, 28 Aug 2024 20:22:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 15:44:44.847590
- Title: ChartEye: A Deep Learning Framework for Chart Information Extraction
- Title(参考訳): ChartEye: チャート情報抽出のためのディープラーニングフレームワーク
- Authors: Osama Mustafa, Muhammad Khizer Ali, Momina Moetesum, Imran Siddiqi,
- Abstract要約: 本研究では,グラフ情報抽出パイプラインにおける重要なステップに対するソリューションを提供する,ディープラーニングベースのフレームワークを提案する。
提案フレームワークは階層型視覚変換器をグラフ型およびテキストロール分類のタスクに用い,YOLOv7はテキスト検出に用いた。
提案手法は,F1スコアが0.97,テキストロール分類が0.91,テキスト検出が平均0.95,各段階において優れた性能を実現している。
- 参考スコア(独自算出の注目度): 2.4936576553283287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread use of charts and infographics as a means of data visualization in various domains has inspired recent research in automated chart understanding. However, information extraction from chart images is a complex multitasked process due to style variations and, as a consequence, it is challenging to design an end-to-end system. In this study, we propose a deep learning-based framework that provides a solution for key steps in the chart information extraction pipeline. The proposed framework utilizes hierarchal vision transformers for the tasks of chart-type and text-role classification, while YOLOv7 for text detection. The detected text is then enhanced using Super Resolution Generative Adversarial Networks to improve the recognition output of the OCR. Experimental results on a benchmark dataset show that our proposed framework achieves excellent performance at every stage with F1-scores of 0.97 for chart-type classification, 0.91 for text-role classification, and a mean Average Precision of 0.95 for text detection.
- Abstract(参考訳): 様々な領域におけるデータ視覚化の手段としてチャートやインフォグラフィックが広く使われていることは、最近の自動チャート理解の研究に刺激を与えている。
しかし,チャート画像からの情報抽出はスタイルの変化による複雑なマルチタスク処理であり,結果としてエンドツーエンドのシステムを設計することは困難である。
本研究では,グラフ情報抽出パイプラインにおける重要なステップに対するソリューションを提供する,ディープラーニングベースのフレームワークを提案する。
提案フレームワークは階層型視覚変換器をグラフ型およびテキストロール分類のタスクに用い,YOLOv7はテキスト検出に用いた。
次に、検出されたテキストをSuper Resolution Generative Adversarial Networksを用いて拡張し、OCRの認識出力を改善する。
ベンチマークデータを用いた実験結果から,F1スコアが0.97,テキストロール分類が0.91,テキスト検出が平均0.95,各段階において優れた性能が得られた。
関連論文リスト
- On Pre-training of Multimodal Language Models Customized for Chart Understanding [83.99377088129282]
本稿では,MLLMのチャート理解を改善するために必要な学習過程について考察する。
詳細なチャート理解に適したMLLMであるCHOPINLLMを紹介する。
論文 参考訳(メタデータ) (2024-07-19T17:58:36Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - StructChart: Perception, Structuring, Reasoning for Visual Chart
Understanding [58.38480335579541]
現在のチャート関連タスクは、視覚チャートから情報を抽出することを参照するチャート認識か、抽出されたデータから推論を行うかに焦点を当てている。
本稿では,共同認識と推論タスクのための統一的でラベル効率のよい学習パラダイムを確立することを目的とする。
各種のチャート関連タスクで実験を行い、統合されたチャート認識推論パラダイムの有効性と有望な可能性を実証した。
論文 参考訳(メタデータ) (2023-09-20T12:51:13Z) - An extensible point-based method for data chart value detection [7.9137747195666455]
本稿では,リバースエンジニアリングデータチャートに意味点を識別する手法を提案する。
提案手法では,グラフ上の関心点の位置を直接予測するために,ポイント提案ネットワークを用いる。
我々は科学文献において,0.8705 F1の精度で有意な点を検出できる複雑なバーチャートに注目した。
論文 参考訳(メタデータ) (2023-08-22T21:03:58Z) - ChartDETR: A Multi-shape Detection Network for Visual Chart Recognition [33.89209291115389]
現在の手法はキーポイント検出に頼り、チャート内のデータ要素の形状を推定するが、後処理のエラーをグループ化する。
本稿では, 変圧器を用いたマルチ形状検出器であるChartDETRを提案し, 正規形状の角のキーポイントをローカライズして, 複数のデータ要素を1枚のチャート画像に再構成する。
提案手法は,クエリグループをセット予測に導入することにより,全てのデータ要素の形状を同時に予測する。
論文 参考訳(メタデータ) (2023-08-15T12:50:06Z) - Context-Aware Chart Element Detection [0.22559617939136503]
本稿では,コンテキスト認識型チャート要素検出のための新しい手法CACHEDを提案する。
我々は既存のチャート要素の分類を洗練し、プロット要素を除く基本要素の18のクラスを標準化する。
提案手法は,グラフ要素検出におけるコンテキストの重要性を強調し,実験における最先端性能を実現する。
論文 参考訳(メタデータ) (2023-05-07T00:08:39Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - Weakly Supervised Change Detection Using Guided Anisotropic Difusion [97.43170678509478]
我々は、このようなデータセットを変更検出の文脈で活用するのに役立つ独自のアイデアを提案する。
まず,意味的セグメンテーション結果を改善する誘導異方性拡散(GAD)アルゴリズムを提案する。
次に、変化検出に適した2つの弱い教師付き学習戦略の可能性を示す。
論文 参考訳(メタデータ) (2021-12-31T10:03:47Z) - Towards an efficient framework for Data Extraction from Chart Images [27.114170963444074]
データマイニングシステムにおいて,データ抽出段階において最先端のコンピュータビジョン技術を採用する。
堅牢な点検出器を構築するには、特徴融合モジュールを備えた完全な畳み込みネットワークを採用する。
データ変換では,検出した要素を意味値でデータに変換する。
論文 参考訳(メタデータ) (2021-05-05T13:18:53Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Towards Robust Visual Information Extraction in Real World: New Dataset
and Novel Solution [30.438041837029875]
実世界のシナリオに向けた堅牢な視覚情報抽出システム(VIES)を提案する。
VIESは、同時テキスト検出、認識、情報抽出のための統一されたエンドツーエンドのトレーニング可能なフレームワークです。
テキストスポッティングと視覚情報抽出の両方の中国初のベンチマークであるephoieと呼ばれる完全注釈付きデータセットを構築した。
論文 参考訳(メタデータ) (2021-01-24T11:05:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。