論文の概要: Line Graphics Digitization: A Step Towards Full Automation
- arxiv url: http://arxiv.org/abs/2307.02065v1
- Date: Wed, 5 Jul 2023 07:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-06 14:55:00.486454
- Title: Line Graphics Digitization: A Step Towards Full Automation
- Title(参考訳): Line Graphics Digitization: 完全な自動化に向けたステップ
- Authors: Omar Moured, Jiaming Zhang, Alina Roitberg, Thorsten Schwarz, Rainer
Stiefelhagen
- Abstract要約: 5つの粗いカテゴリと10の細かいカテゴリのピクセルワイズアノテーションを含むLine Graphics (LG)データセットを提示する。
我々のデータセットは、異なる分野から450の文書から収集された数学図形の520の画像を網羅している。
提案するデータセットは、セマンティックセグメンテーションとオブジェクト検出という、2つの異なるコンピュータビジョンタスクをサポートすることができる。
- 参考スコア(独自算出の注目度): 29.017383766914406
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The digitization of documents allows for wider accessibility and
reproducibility. While automatic digitization of document layout and text
content has been a long-standing focus of research, this problem in regard to
graphical elements, such as statistical plots, has been under-explored. In this
paper, we introduce the task of fine-grained visual understanding of
mathematical graphics and present the Line Graphics (LG) dataset, which
includes pixel-wise annotations of 5 coarse and 10 fine-grained categories. Our
dataset covers 520 images of mathematical graphics collected from 450 documents
from different disciplines. Our proposed dataset can support two different
computer vision tasks, i.e., semantic segmentation and object detection. To
benchmark our LG dataset, we explore 7 state-of-the-art models. To foster
further research on the digitization of statistical graphs, we will make the
dataset, code, and models publicly available to the community.
- Abstract(参考訳): 文書のデジタル化は、より広いアクセス性と再現性を可能にする。
文書レイアウトとテキストコンテンツの自動デジタル化は長年にわたる研究の焦点となっているが、統計プロットなどのグラフィカル要素に関する問題は未検討である。
本稿では,数学グラフィックスの微細な視覚的理解の課題を紹介するとともに,5つの粗いカテゴリと10の細かいカテゴリの画素単位のアノテーションを含むLine Graphics(LG)データセットを紹介する。
我々のデータセットは、異なる分野の450の文書から収集された520の数学グラフィックのイメージをカバーしている。
提案するデータセットは,セマンティクスセグメンテーションとオブジェクト検出という2つの異なるコンピュータビジョンタスクをサポートする。
LGデータセットをベンチマークするために、7つの最先端モデルを探索する。
統計グラフのデジタル化に関するさらなる研究を促進するため、私たちはデータセット、コード、モデルをコミュニティに公開します。
関連論文リスト
- Unlocking Comics: The AI4VA Dataset for Visual Understanding [62.345344799258804]
本稿では,1950年代のフレンチ・ベルジアン漫画に,深度推定,セマンティックセグメンテーション,サリエンシ検出,キャラクタ識別などのタスクを注記した新しいデータセットを提案する。
2つの異なる一貫したスタイルで構成され、自然画像から得られたオブジェクトの概念とラベルを取り入れている。
このような多様な情報を含むことで、このデータセットは計算の創造性を約束するだけでなく、アートのデジタル化やストーリーテリングの革新のための道も提供します。
論文 参考訳(メタデータ) (2024-10-27T14:27:05Z) - From Pixels to Insights: A Survey on Automatic Chart Understanding in the Era of Large Foundation Models [98.41645229835493]
グラフ形式のデータの可視化は、データ分析において重要な役割を担い、重要な洞察を提供し、情報的な意思決定を支援する。
大規模言語モデルのような大規模な基盤モデルは、様々な自然言語処理タスクに革命をもたらした。
本研究は,自然言語処理,コンピュータビジョン,データ解析の分野における研究者や実践者の包括的資源として機能する。
論文 参考訳(メタデータ) (2024-03-18T17:57:09Z) - MatGD: Materials Graph Digitizer [2.4857235004269165]
MatGD(Material Graph Digitizer)は、科学グラフからデータラインをデジタル化するツールである。
62,534枚のうち、MOF、501,045枚が採掘された。
本ツールでは,伝説的マーカーとテキスト検出において99%以上の精度で性能を示した。
論文 参考訳(メタデータ) (2023-09-19T07:19:16Z) - Graph Pooling for Graph Neural Networks: Progress, Challenges, and
Opportunities [128.55790219377315]
グラフニューラルネットワークは多くのグラフレベルのタスクの主要なアーキテクチャとして登場した。
グラフプーリングは、グラフ全体の全体的グラフレベル表現を得るためには不可欠である。
論文 参考訳(メタデータ) (2022-04-15T04:02:06Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - CHARTER: heatmap-based multi-type chart data extraction [7.838284602257369]
本稿では,文書チャートを機械可読データ形式に変換する手法とシステムを提案する。
提案手法では,グラフの抽出と解析,グラフィカルな要素の抽出と構造解析を行う。
我々の検出システムはニューラルネットワークに基づいており、合成データのみに基づいて訓練されている。
論文 参考訳(メタデータ) (2021-11-28T11:01:21Z) - InfographicVQA [31.084392784258032]
InfographicVQAは、さまざまなインフォグラフィックコレクションと自然言語の質問と回答アノテーションを含む、新しいデータセットである。
基本推論と基本算術スキルを必要とする質問に重点を置いたデータセットをキュレートする。
データセット、コード、およびリーダーボードはhttp://docvqa.org.comで入手できる。
論文 参考訳(メタデータ) (2021-04-26T17:45:54Z) - Visual Distant Supervision for Scene Graph Generation [66.10579690929623]
シーングラフモデルは通常、大量のラベル付きデータを人間のアノテーションで教師付き学習する必要がある。
本研究では,人間ラベルデータを用いずにシーングラフモデルを訓練できる視覚関係学習の新しいパラダイムである視覚遠方監視を提案する。
包括的な実験結果から、我々の遠隔監視モデルは、弱い監督と半監督のベースラインよりも優れています。
論文 参考訳(メタデータ) (2021-03-29T06:35:24Z) - Structural Information Preserving for Graph-to-Text Generation [59.00642847499138]
グラフ・トゥ・テキスト生成の課題は、入力グラフの意味を保存した文を生成することである。
入力情報を保存するためのモデルとして,より豊かなトレーニング信号を活用することで,この問題に取り組むことを提案する。
グラフからテキストへの生成のための2つのベンチマークに関する実験は、最先端のベースラインに対するアプローチの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:01Z) - Graphical Object Detection in Document Images [30.48863304419383]
文書画像中のグラフィカルオブジェクトをローカライズする「グラフィカルオブジェクト検出(Graphical Object Detection, GOD)」という、エンドツーエンドのトレーニング可能なディープラーニングベースのフレームワークを提案する。
我々のフレームワークはデータ駆動であり、文書画像内のグラフィカルなオブジェクトを見つけるのにメタデータを一切必要としない。
我々のモデルは最先端技術と比較して有望な結果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T06:35:57Z) - Graph Edit Distance Reward: Learning to Edit Scene Graph [69.39048809061714]
本研究では,これまで検討されていないユーザ指示に従ってシーングラフを編集する手法を提案する。
具体的には,テキストから得られるセマンティクスとしてシーングラフの編集を学習するために,グラフ編集距離再帰(Graph Edit Distance Reward)を提案する。
テキスト編集画像検索の文脈において,CSSおよびCRIRデータセットにおける本手法の有効性を検証する。
論文 参考訳(メタデータ) (2020-08-15T04:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。