論文の概要: BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset
- arxiv url: http://arxiv.org/abs/2303.05325v3
- Date: Fri, 5 May 2023 07:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-08 16:52:55.914209
- Title: BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset
- Title(参考訳): BaDLAD: 大規模マルチドメインのBengaliドキュメントレイアウト分析データセット
- Authors: Md. Istiak Hossain Shihab, Md. Rakibul Hasan, Mahfuzur Rahman Emon,
Syed Mobassir Hossen, Md. Nazmuddoha Ansary, Intesur Ahmed, Fazle Rabbi
Rakib, Shahriar Elahi Dhruvo, Souhardya Saha Dip, Akib Hasan Pavel, Marsia
Haque Meghla, Md. Rezwanul Haque, Sayma Sultana Chowdhury, Farig Sadeque,
Tahsin Reasat, Ahmed Imtiaz Humayun, Asif Shahriyar Sushmit
- Abstract要約: このデータセットには、6つのドメインから33,695人の注釈付き文書サンプルが含まれている。
深層学習に基づくベンガル文書モデルのトレーニングにおけるデータセットの有効性を示す。
- 参考スコア(独自算出の注目度): 1.2015699532079325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While strides have been made in deep learning based Bengali Optical Character
Recognition (OCR) in the past decade, the absence of large Document Layout
Analysis (DLA) datasets has hindered the application of OCR in document
transcription, e.g., transcribing historical documents and newspapers.
Moreover, rule-based DLA systems that are currently being employed in practice
are not robust to domain variations and out-of-distribution layouts. To this
end, we present the first multidomain large Bengali Document Layout Analysis
Dataset: BaDLAD. This dataset contains 33,695 human annotated document samples
from six domains - i) books and magazines, ii) public domain govt. documents,
iii) liberation war documents, iv) newspapers, v) historical newspapers, and
vi) property deeds, with 710K polygon annotations for four unit types:
text-box, paragraph, image, and table. Through preliminary experiments
benchmarking the performance of existing state-of-the-art deep learning
architectures for English DLA, we demonstrate the efficacy of our dataset in
training deep learning based Bengali document digitization models.
- Abstract(参考訳): 過去10年間、深層学習に基づくベンガル光文字認識(OCR)の努力が続けられてきたが、大規模な文書レイアウト分析(DLA)データセットが欠如しているため、OCRの文書の書き起こし、例えば、歴史文書や新聞の書き起こしが妨げられている。
さらに、現在実際に使用されているルールベースのDLAシステムは、ドメインのバリエーションや配布外レイアウトに対して堅牢ではない。
この目的のために、最初のマルチドメイン大規模Bengali Document Layout Analysis Dataset: BaDLADを提案する。
このデータセットには、6つのドメインから33,695人の注釈付きドキュメントサンプルが含まれている。
i)本及び雑誌
二 パブリックドメインのgovt。
書類や
三 解放戦争文書
iv) 新聞
v) 歴史新聞,及び
vi) プロパティの処理, テキストボックス, 段落, 画像, テーブルの4つの単位タイプに対する710Kポリゴンアノテーション
英語DLAのための既存の最先端ディープラーニングアーキテクチャのパフォーマンスをベンチマークする予備実験を通じて、深層学習に基づくベンガル文書デジタル化モデルのトレーニングにおけるデータセットの有効性を実証する。
関連論文リスト
- VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文 参考訳(メタデータ) (2024-04-30T04:53:10Z) - Bengali Document Layout Analysis with Detectron2 [0.0]
文書レイアウト分析では、文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。
我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。
その結果,ベンガル語の文書を正確に分類する上で,これらのモデルの有効性が示された。
論文 参考訳(メタデータ) (2023-08-26T05:29:09Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Cross-Domain Document Layout Analysis Using Document Style Guide [15.799572801059716]
文書レイアウト解析(DLA)は、文書画像を高レベルな意味領域に分解することを目的としている。
多くの研究者がこの課題に取り組み、大規模なトレーニングセットを構築するためにデータを合成した。
本稿では文書スタイルのガイダンスに基づく教師なしクロスドメインDLAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T00:49:19Z) - CDA: a Cost Efficient Content-based Multilingual Web Document Aligner [97.98885151955467]
多言語のWebドキュメントをコンテンツに基づいて整列させる、Content-based Document Alignmentアプローチを紹介します。
我々はtf-idfを用いたベクトル表現構築に語彙翻訳モデルを利用する。
実験によると、cdaは堅牢でコスト効率が高く、(i)大規模でノイズの多いwebデータの処理や(ii)新しくて低リソースな言語へのスケーリングにおいて著しく優れている。
論文 参考訳(メタデータ) (2021-02-20T03:37:23Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。