論文の概要: LayoutParser: A Unified Toolkit for Deep Learning Based Document Image
Analysis
- arxiv url: http://arxiv.org/abs/2103.15348v1
- Date: Mon, 29 Mar 2021 05:55:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 15:25:39.104115
- Title: LayoutParser: A Unified Toolkit for Deep Learning Based Document Image
Analysis
- Title(参考訳): LayoutParser: ディープラーニングベースのドキュメントイメージ分析のための統一ツールキット
- Authors: Zejiang Shen, Ruochen Zhang, Melissa Dell, Benjamin Charles Germain
Lee, Jacob Carlson, Weining Li
- Abstract要約: 本稿では,文書画像解析(DIA)研究における深層学習(DL)モデルの利用を合理化するためのオープンソースのライブラリであるレイアウトパーサを紹介する。
layoutparserには、レイアウト検出、文字認識、および他の多くのドキュメント処理タスクのためのDLモデルを適用およびカスタマイズするためのシンプルで直感的なインターフェースのセットが付属しています。
layoutparserは、リアルタイムのユースケースにおける軽量パイプラインと大規模パイプラインの両方に有用であることを示す。
- 参考スコア(独自算出の注目度): 3.4253416336476246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in document image analysis (DIA) have been primarily driven
by the application of neural networks. Ideally, research outcomes could be
easily deployed in production and extended for further investigation. However,
various factors like loosely organized codebases and sophisticated model
configurations complicate the easy reuse of important innovations by a wide
audience. Though there have been on-going efforts to improve reusability and
simplify deep learning (DL) model development in disciplines like natural
language processing and computer vision, none of them are optimized for
challenges in the domain of DIA. This represents a major gap in the existing
toolkit, as DIA is central to academic research across a wide range of
disciplines in the social sciences and humanities. This paper introduces
layoutparser, an open-source library for streamlining the usage of DL in DIA
research and applications. The core layoutparser library comes with a set of
simple and intuitive interfaces for applying and customizing DL models for
layout detection, character recognition, and many other document processing
tasks. To promote extensibility, layoutparser also incorporates a community
platform for sharing both pre-trained models and full document digitization
pipelines. We demonstrate that layoutparser is helpful for both lightweight and
large-scale digitization pipelines in real-word use cases. The library is
publicly available at https://layout-parser.github.io/.
- Abstract(参考訳): 文書画像解析(DIA)の最近の進歩は、主にニューラルネットワークの適用によって進められている。
理想的には、研究成果は容易に生産に展開でき、さらなる調査のために拡張することができる。
しかし、疎結合なコードベースや洗練されたモデル構成といったさまざまな要素は、幅広いオーディエンスによる重要なイノベーションの再利用を容易に複雑にします。
自然言語処理やコンピュータビジョンといった分野における、再利用性の向上とディープラーニング(DL)モデル開発を簡素化する取り組みが進行中だが、DIAの領域における課題に最適化されているものはない。
DIAは、社会科学と人文科学の幅広い分野にわたる学術研究の中心である。
本稿では,dia研究とアプリケーションにおけるdlの利用を合理化するオープンソースライブラリであるlayoutparserを紹介する。
コアレイアウトパーサライブラリには、レイアウト検出、文字認識、その他多くのドキュメント処理タスクのためのDLモデルの適用とカスタマイズのための、シンプルで直感的なインターフェースが付属している。
拡張性を促進するために、レイアウトパーサは、事前訓練されたモデルとフルドキュメントのデジタイゼーションパイプラインの両方を共有するコミュニティプラットフォームも組み込んでいる。
レイアウトパーザは,実単語のユースケースにおいて,軽量かつ大規模ディジタル化パイプラインとして有用であることを示す。
ライブラリはhttps://layout-parser.github.io/で公開されている。
関連論文リスト
- A Library Perspective on Supervised Text Processing in Digital Libraries: An Investigation in the Biomedical Domain [3.9519587827662397]
本研究では,8つのバイオメディカルベンチマークを用いて,関係抽出とテキスト分類に焦点を当てた。
精度とアプリケーションコストのトレードオフを検討し、遠隔監視とChatGPT、LLama、Olmoといった大規模言語モデルを通じてデータ生成のトレーニングを行い、最終パイプラインの設計方法について論じる。
論文 参考訳(メタデータ) (2024-11-06T07:54:10Z) - EduNLP: Towards a Unified and Modularized Library for Educational Resources [78.8523961816045]
我々はEduNLPという,統一された,モジュール化された,広範なライブラリを紹介し,教育資源の理解に焦点をあてる。
このライブラリでは、ワークフロー全体を4つのキーモジュールに分離し、データ構成、処理、モデル実装、モデル評価など、一貫したインターフェースを提供します。
現在のバージョンでは、主に4つのカテゴリから10の典型的なモデルを提供し、教育領域における5つのダウンストリーム評価タスクを、ユーザの使用に対して8つの被験者に提供します。
論文 参考訳(メタデータ) (2024-06-03T12:45:40Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Enhancing Visually-Rich Document Understanding via Layout Structure
Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。
我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文 参考訳(メタデータ) (2023-08-15T13:53:52Z) - Are Layout-Infused Language Models Robust to Layout Distribution Shifts?
A Case Study with Scientific Documents [54.744701806413204]
近年の研究では、レイアウト機能を言語モデル(LM)に注入することで、科学論文などの視覚に富んだ文書の処理が改善されている。
レイアウトを注入したLMがレイアウト分布シフトに対して堅牢であるかどうかを検証する。
論文 参考訳(メタデータ) (2023-06-01T18:01:33Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。
ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。
textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文 参考訳(メタデータ) (2022-06-02T14:25:12Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis [0.6551090704585544]
本研究では,歴史的文書解析に特化して設計されたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。
データや大規模なデータセットをロードする強力なモジュールの恩恵を受けることで、自分自身のタスクを簡単に作成できます。
データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に短縮できる。
論文 参考訳(メタデータ) (2022-01-20T17:02:46Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - CLEVR Parser: A Graph Parser Library for Geometric Learning on Language
Grounded Image Scenes [2.750124853532831]
CLEVRデータセットは、機械学習(ML)と自然言語処理(NLP)ドメインにおいて、言語基盤の視覚的推論で広く使用されている。
本稿では,CLEVR用のグラフライブラリについて述べる。オブジェクト中心属性と関係抽出の機能を提供し,デュアルモーダル性のための構造グラフ表現の構築を行う。
図書館の下流利用と応用について論じるとともに,NLP研究コミュニティにおける研究の促進について論じる。
論文 参考訳(メタデータ) (2020-09-19T03:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。