論文の概要: ChartDETR: A Multi-shape Detection Network for Visual Chart Recognition
- arxiv url: http://arxiv.org/abs/2308.07743v1
- Date: Tue, 15 Aug 2023 12:50:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:04:01.756344
- Title: ChartDETR: A Multi-shape Detection Network for Visual Chart Recognition
- Title(参考訳): ChartDETR:ビジュアルチャート認識のための複数形状検出ネットワーク
- Authors: Wenyuan Xue, Dapeng Chen, Baosheng Yu, Yifei Chen, Sai Zhou, Wei Peng
- Abstract要約: 現在の手法はキーポイント検出に頼り、チャート内のデータ要素の形状を推定するが、後処理のエラーをグループ化する。
本稿では, 変圧器を用いたマルチ形状検出器であるChartDETRを提案し, 正規形状の角のキーポイントをローカライズして, 複数のデータ要素を1枚のチャート画像に再構成する。
提案手法は,クエリグループをセット予測に導入することにより,全てのデータ要素の形状を同時に予測する。
- 参考スコア(独自算出の注目度): 33.89209291115389
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual chart recognition systems are gaining increasing attention due to the
growing demand for automatically identifying table headers and values from
chart images. Current methods rely on keypoint detection to estimate data
element shapes in charts but suffer from grouping errors in post-processing. To
address this issue, we propose ChartDETR, a transformer-based multi-shape
detector that localizes keypoints at the corners of regular shapes to
reconstruct multiple data elements in a single chart image. Our method predicts
all data element shapes at once by introducing query groups in set prediction,
eliminating the need for further postprocessing. This property allows ChartDETR
to serve as a unified framework capable of representing various chart types
without altering the network architecture, effectively detecting data elements
of diverse shapes. We evaluated ChartDETR on three datasets, achieving
competitive results across all chart types without any additional enhancements.
For example, ChartDETR achieved an F1 score of 0.98 on Adobe Synthetic,
significantly outperforming the previous best model with a 0.71 F1 score.
Additionally, we obtained a new state-of-the-art result of 0.97 on
ExcelChart400k. The code will be made publicly available.
- Abstract(参考訳): グラフ画像からテーブルヘッダーと値を自動的に識別する需要が高まっているため、ビジュアルチャート認識システムが注目を集めている。
現在の手法はキーポイント検出に頼り、チャート内のデータ要素の形状を推定するが、後処理のエラーをグループ化する。
そこで本研究では,正規形状の角にキーポイントを配置し,複数のデータ要素を単一のチャート画像に再構成するトランスフォーマー型多形検出器chartdetrを提案する。
提案手法は,クエリグループをセット予測に導入することにより,全てのデータ要素の形状を同時に予測する。
この特性により、ChartDETRはネットワークアーキテクチャを変更することなく様々なチャートタイプを表現できる統一されたフレームワークとして機能し、多様な形状のデータ要素を効果的に検出できる。
我々はChartDETRを3つのデータセットで評価し、追加の強化なしに全てのチャートタイプで競合する結果を得た。
例えば、ChartDETRはAdobe SyntheticのF1スコア0.98を達成し、0.71F1スコアで以前の最高のモデルよりも大幅に上回った。
さらにExcelChart400kで0.97の最先端結果を得た。
コードは公開される予定だ。
関連論文リスト
- ChartEye: A Deep Learning Framework for Chart Information Extraction [2.4936576553283287]
本研究では,グラフ情報抽出パイプラインにおける重要なステップに対するソリューションを提供する,ディープラーニングベースのフレームワークを提案する。
提案フレームワークは階層型視覚変換器をグラフ型およびテキストロール分類のタスクに用い,YOLOv7はテキスト検出に用いた。
提案手法は,F1スコアが0.97,テキストロール分類が0.91,テキスト検出が平均0.95,各段階において優れた性能を実現している。
論文 参考訳(メタデータ) (2024-08-28T20:22:39Z) - Advancing Chart Question Answering with Robust Chart Component Recognition [18.207819321127182]
本稿では,バー,ライン,パイ,タイトル,伝説,軸といったコンポーネントを正確に識別し,分類することで,チャートコンポーネントの認識を強化する統一フレームワークを提案する。
また,Chartformerによって符号化されたチャート機能に与えられた質問を融合させ,正しい回答の根拠となる質問のガイダンスを活用する,新しい質問誘導型変形型コ・アテンション機構を提案する。
論文 参考訳(メタデータ) (2024-07-19T20:55:06Z) - TinyChart: Efficient Chart Understanding with Visual Token Merging and Program-of-Thoughts Learning [83.58521787193293]
本稿では,3Bパラメータのみを用いたチャート理解のための効率的なMLLMであるTinyChartを提案する。
TinyChartは,1)プログラム・オブ・ソート(PoT)学習戦略による数値計算学習の負担軽減,2)ビジョン・トーケン・マージ・モジュールによる高解像度画像のためのビジョン・トランスフォーマーによって生成される長大な視覚特徴系列の削減という,効率的なチャート理解における2つの課題を克服した。
論文 参考訳(メタデータ) (2024-04-25T14:23:24Z) - ChartAssisstant: A Universal Chart Multimodal Language Model via
Chart-to-Table Pre-training and Multitask Instruction Tuning [54.89249749894061]
ChartAssistantは、ユニバーサルチャートの理解と推論のためのビジョン言語モデルである。
2段階のトレーニングプロセスを経て、チャートとテキストの調整のために、チャートからテーブルへのパースを事前トレーニングする。
実験により, 最先端UniChart法とChartllama法に比較して, 顕著な性能向上が得られた。
論文 参考訳(メタデータ) (2024-01-04T17:51:48Z) - An extensible point-based method for data chart value detection [7.9137747195666455]
本稿では,リバースエンジニアリングデータチャートに意味点を識別する手法を提案する。
提案手法では,グラフ上の関心点の位置を直接予測するために,ポイント提案ネットワークを用いる。
我々は科学文献において,0.8705 F1の精度で有意な点を検出できる複雑なバーチャートに注目した。
論文 参考訳(メタデータ) (2023-08-22T21:03:58Z) - GenPlot: Increasing the Scale and Diversity of Chart Derendering Data [0.0]
我々は、合成データを用いて、チャートデレンダリングのための何十億ものプロットを生成するプロットジェネレータであるGenPlotを提案する。
OCR-free chart-to-text translation は視覚言語タスクの最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-20T17:25:53Z) - ChartReader: A Unified Framework for Chart Derendering and Comprehension
without Heuristic Rules [89.75395046894809]
ChartReaderは、チャートのデレンダリングと理解タスクをシームレスに統合する統合フレームワークです。
提案手法には,トランスフォーマーに基づくチャートコンポーネント検出モジュールと,チャートからXまでのタスクに対する事前学習型視覚言語モデルが組み込まれている。
提案するフレームワークは,チャート解析に係わる作業を大幅に削減し,ユニバーサルチャート理解モデルへの一歩を踏み出すことができる。
論文 参考訳(メタデータ) (2023-04-05T00:25:27Z) - EGRC-Net: Embedding-induced Graph Refinement Clustering Network [66.44293190793294]
埋め込みによるグラフリファインメントクラスタリングネットワーク (EGRC-Net) という新しいグラフクラスタリングネットワークを提案する。
EGRC-Netは学習した埋め込みを利用して初期グラフを適応的に洗練し、クラスタリング性能を向上させる。
提案手法はいくつかの最先端手法より一貫して優れている。
論文 参考訳(メタデータ) (2022-11-19T09:08:43Z) - Table2Charts: Recommending Charts by Learning Shared Table
Representations [61.68711232246847]
Table2Chartsは、(テーブル、チャート)ペアの大きなコーパスから共通のパターンを学ぶ。
165kのテーブルと266kのチャートを持つ大きなスプレッドシートコーパスでは、テーブルフィールドの共有表現を学習できることが示される。
論文 参考訳(メタデータ) (2020-08-24T15:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。