論文の概要: ScanBank: A Benchmark Dataset for Figure Extraction from Scanned
Electronic Theses and Dissertations
- arxiv url: http://arxiv.org/abs/2106.15320v1
- Date: Wed, 23 Jun 2021 04:43:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-04 20:49:55.345962
- Title: ScanBank: A Benchmark Dataset for Figure Extraction from Scanned
Electronic Theses and Dissertations
- Title(参考訳): ScanBank: Scanned Electronic Theses and Dissertationsから図を抽出するためのベンチマークデータセット
- Authors: Sampanna Yashwant Kahu, William A. Ingram, Edward A. Fox, Jian Wu
- Abstract要約: 本研究は,電子的論文・論文(ETD)に焦点をあて,アクセス性の向上と実用性の向上を目的としている。
デジタルPDFから図形や表を抽出する手法が提案されているが、スキャンされたETDではうまく機能しない。
この制限に対処するため、ScanBankという1万ページの画像をスキャンした新しいデータセットを提示する。
このデータセットを用いて、YOLOv5に基づくディープニューラルネットワークモデルをトレーニングし、スキャンされたETDから数値とテーブルを正確に抽出する。
- 参考スコア(独自算出の注目度): 3.4252676314771144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We focus on electronic theses and dissertations (ETDs), aiming to improve
access and expand their utility, since more than 6 million are publicly
available, and they constitute an important corpus to aid research and
education across disciplines. The corpus is growing as new born-digital
documents are included, and since millions of older theses and dissertations
have been converted to digital form to be disseminated electronically in
institutional repositories. In ETDs, as with other scholarly works, figures and
tables can communicate a large amount of information in a concise way. Although
methods have been proposed for extracting figures and tables from born-digital
PDFs, they do not work well with scanned ETDs. Considering this problem, our
assessment of state-of-the-art figure extraction systems is that the reason
they do not function well on scanned PDFs is that they have only been trained
on born-digital documents. To address this limitation, we present ScanBank, a
new dataset containing 10 thousand scanned page images, manually labeled by
humans as to the presence of the 3.3 thousand figures or tables found therein.
We use this dataset to train a deep neural network model based on YOLOv5 to
accurately extract figures and tables from scanned ETDs. We pose and answer
important research questions aimed at finding better methods for figure
extraction from scanned documents. One of those concerns the value for
training, of data augmentation techniques applied to born-digital documents
which are used to train models better suited for figure extraction from scanned
documents. To the best of our knowledge, ScanBank is the first manually
annotated dataset for figure and table extraction for scanned ETDs. A
YOLOv5-based model, trained on ScanBank, outperforms existing comparable
open-source and freely available baseline methods by a considerable margin.
- Abstract(参考訳): 我々は,600万人以上が公開されており,アクセスの向上と実用性の拡大をめざして,電子製図・論文(ETDs)に焦点を合わせ,研究・教育を専門分野にわたって支援するための重要なコーパスを構成している。
新たなデジタル文書が含まれるにつれてコーパスは成長しており、何百万もの古い論文や論文がデジタル形式に変換され、機関リポジトリに電子的に配布されている。
ETDでは、他の学術作品と同様に、数字や表は簡潔な方法で大量の情報を伝達することができる。
デジタルPDFから図形や表を抽出する手法が提案されているが、スキャンされたETDではうまく機能しない。
この問題を考慮し,本研究では,スキャンしたPDFでうまく機能しない理由として,デジタル文書でのみトレーニングを行ったことが挙げられる。
この制限に対処するため、ScanBankは1万ページの画像をスキャンし、人間が手動でラベル付けした新しいデータセットである。
このデータセットを用いて、YOLOv5に基づくディープニューラルネットワークモデルをトレーニングし、スキャンされたETDから数値とテーブルを正確に抽出する。
我々は,スキャンされた文書から図形を抽出するためのより良い方法を見つけることを目的とした,重要な研究課題を提起し,回答する。
そのうちの1つは、スキャンされたドキュメントからの図形抽出に適したモデルをトレーニングするために使用される、生まれながらのデジタルドキュメントに適用されるデータ拡張技術である。
我々の知る限りでは、ScanBankはスキャンされたETDのフィギュアとテーブル抽出のための最初の手動アノテートデータセットである。
ScanBankでトレーニングされたYOLOv5ベースのモデルでは、既存の同等のオープンソースおよび無償のベースラインメソッドよりも大幅にパフォーマンスが向上している。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - A Novel Dataset for Non-Destructive Inspection of Handwritten Documents [0.0]
法医学的手書き検査は、原稿の著者を適切に定義または仮説化するために手書きの文書を調べることを目的としている。
2つのサブセットからなる新しい挑戦的データセットを提案する。第1は古典的なペンと紙で書かれた21の文書で、後者は後にデジタル化され、タブレットなどの一般的なデバイスで直接取得される。
提案したデータセットの予備的な結果は、第1サブセットで90%の分類精度が得られることを示している。
論文 参考訳(メタデータ) (2024-01-09T09:25:58Z) - An Innovative Tool for Uploading/Scraping Large Image Datasets on Social
Networks [9.27070946719462]
我々は、意図的に作成したデジタルツールを用いて、自動化されたアプローチを提案する。
このツールは、画像データセット全体を希望するデジタルプラットフォームに自動的にアップロードし、アップロードされたすべての写真をダウンロードすることができる。
論文 参考訳(メタデータ) (2023-11-01T23:27:37Z) - Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - SCoDA: Domain Adaptive Shape Completion for Real Scans [78.92028595499245]
点雲からの3D形状の完成は、特に現実世界のオブジェクトのスキャンによる難しい作業である。
合成データから実スキャン形状完了の領域適応のための新しいタスクであるSCoDAを提案する。
本稿では,知識伝達のための新しいクロスドメイン機能融合手法と,実データからの堅牢な学習のための新しいボリューム一貫性の自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-20T09:38:26Z) - Data-Free Sketch-Based Image Retrieval [56.96186184599313]
本研究では,事前学習された単一モダリティ分類モデルを用いて,学習データにアクセスせずに検索のためのクロスモーダルな距離空間を学習するData-Free (DF)-SBIRを提案する。
本稿では、写真やスケッチの分類を行うために、独立して訓練されたモデルからの知識を活用できるDF-SBIRの方法論を提案する。
また、トレーニングデータを必要としないデータ依存アプローチと競合するmAPを実現する。
論文 参考訳(メタデータ) (2023-03-14T10:34:07Z) - DiT: Self-supervised Pre-training for Document Image Transformer [85.78807512344463]
自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2022-03-04T15:34:46Z) - Towards Deep Learning-based 6D Bin Pose Estimation in 3D Scans [0.0]
本稿では,3次元スキャンにおけるビンの6次元ポーズ推定の特定のタスクに焦点を当てた。
合成データと実スキャンからなる高品質なデータセットを,正確なアノテーションを付加した構造化光スキャナーにより取得する。
論文 参考訳(メタデータ) (2021-12-17T16:19:06Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Automatic Metadata Extraction Incorporating Visual Features from Scanned
Electronic Theses and Dissertations [3.1354625918296612]
Electronic Theses と (ETD) には、多くのデジタルライブラリータスクに使用できるドメイン知識が含まれている。
従来のシーケンスタグ法は主にテキストベースの機能に依存している。
テキストベースと視覚的特徴を組み合わせた条件付きランダムフィールド(CRF)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-01T14:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。