論文の概要: Unveiling Document Structures with YOLOv5 Layout Detection
- arxiv url: http://arxiv.org/abs/2309.17033v1
- Date: Fri, 29 Sep 2023 07:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:05:47.476711
- Title: Unveiling Document Structures with YOLOv5 Layout Detection
- Title(参考訳): YOLOv5レイアウト検出による文書構造の展開
- Authors: Herman Sugiharto, Yorissa Silviana, Yani Siti Nurpazrin
- Abstract要約: 本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current digital environment is characterized by the widespread presence
of data, particularly unstructured data, which poses many issues in sectors
including finance, healthcare, and education. Conventional techniques for data
extraction encounter difficulties in dealing with the inherent variety and
complexity of unstructured data, hence requiring the adoption of more efficient
methodologies. This research investigates the utilization of YOLOv5, a
cutting-edge computer vision model, for the purpose of rapidly identifying
document layouts and extracting unstructured data.
The present study establishes a conceptual framework for delineating the
notion of "objects" as they pertain to documents, incorporating various
elements such as paragraphs, tables, photos, and other constituent parts. The
main objective is to create an autonomous system that can effectively recognize
document layouts and extract unstructured data, hence improving the
effectiveness of data extraction.
In the conducted examination, the YOLOv5 model exhibits notable effectiveness
in the task of document layout identification, attaining a high accuracy rate
along with a precision value of 0.91, a recall value of 0.971, an F1-score of
0.939, and an area under the receiver operating characteristic curve (AUC-ROC)
of 0.975. The remarkable performance of this system optimizes the process of
extracting textual and tabular data from document images. Its prospective
applications are not limited to document analysis but can encompass
unstructured data from diverse sources, such as audio data.
This study lays the foundation for future investigations into the wider
applicability of YOLOv5 in managing various types of unstructured data,
offering potential for novel applications across multiple domains.
- Abstract(参考訳): 現在のデジタル環境は、金融、医療、教育といった分野において多くの問題を引き起こすデータ、特に非構造化データの存在が特徴である。
データ抽出の従来の技術は、非構造化データの固有の多様性と複雑さを扱うのに困難に直面するため、より効率的な方法論を採用する必要がある。
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
本研究は、文書に関する「対象」の概念を記述するための概念枠組みを確立し、段落、表、写真、その他の構成要素といった様々な要素を取り入れた。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出し、データ抽出の有効性を向上させる自律システムを作ることである。
以上の結果から,yolov5モデルは,精度0.91,リコール値0.971,f1スコア0.939,受信者動作特性曲線(auc-roc)0.975の領域において,文書レイアウト識別タスクにおいて顕著な有効性を示した。
本システムの性能は文書画像からテキストおよび表データを抽出する処理を最適化する。
その有望な応用は文書分析に限らず、オーディオデータのような多様なソースからの非構造化データを包含することができる。
本研究は, 多様な非構造化データ管理におけるYOLOv5の適用性に関する今後の研究の基盤を定め, 複数領域にわたる新しい応用の可能性を提供する。
関連論文リスト
- DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Enhancing Document Information Analysis with Multi-Task Pre-training: A
Robust Approach for Information Extraction in Visually-Rich Documents [8.49076413640561]
モデルは事前訓練され、その後、様々な文書画像解析タスクのために微調整される。
提案されたモデルは、文書分類のためのRVL-CDIPデータセットで95.87%の精度で、すべてのタスクで印象的な結果を得た。
論文 参考訳(メタデータ) (2023-10-25T10:22:30Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - infoVerse: A Universal Framework for Dataset Characterization with
Multidimensional Meta-information [68.76707843019886]
infoVerseは、データセットの特徴付けのための普遍的なフレームワークである。
infoVerseは、様々なモデル駆動メタ情報を統合することで、データセットの多次元特性をキャプチャする。
実世界の3つのアプリケーション(データプルーニング、アクティブラーニング、データアノテーション)において、infoVerse空間で選択されたサンプルは、強いベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2023-05-30T18:12:48Z) - Visual Information Extraction in the Wild: Practical Dataset and
End-to-end Solution [48.693941280097974]
視覚情報抽出(VIE)のためのカメラ画像からなる大規模データセットを提案する。
我々は,OCRの段階と情報抽出をエンド・ツー・エンドの学習方式で組み合わせた,エンド・ツー・エンドVIEのための新しいフレームワークを提案する。
提案したデータセット上で既存のVIEのエンド・ツー・エンド手法を評価し,これらの手法の性能がSROIEから提案したデータセットに相違があることを観察した。
論文 参考訳(メタデータ) (2023-05-12T14:11:47Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Extracting Variable-Depth Logical Document Hierarchy from Long
Documents: Method, Evaluation, and Application [21.270184491603864]
我々は、長いドキュメント(HELD)から階層抽出(Hierarchy extract)というフレームワークを開発し、各物理オブジェクトを現在のツリーの適切な位置に「逐次」挿入する。
中国、イギリスの金融市場、イギリスの科学出版物から何千もの長い文書に基づく実験。
本稿では,下流経路検索タスクの性能向上に論理文書階層を用いる方法を提案する。
論文 参考訳(メタデータ) (2021-05-14T06:26:22Z) - Learning from similarity and information extraction from structured
documents [0.0]
目的は、巨大な実世界の文書データセット上で、単語ごとの分類のマイクロF1を改善することである。
結果は、提案されたアーキテクチャ部品がすべて、以前の結果を上回るために必要であることを確認した。
最高のモデルは、F1スコアの8.25利得によって、前の最先端結果を改善する。
論文 参考訳(メタデータ) (2020-10-17T21:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。