論文の概要: Bengali Document Layout Analysis with Detectron2
- arxiv url: http://arxiv.org/abs/2308.13769v1
- Date: Sat, 26 Aug 2023 05:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:18:13.267984
- Title: Bengali Document Layout Analysis with Detectron2
- Title(参考訳): detectron2 による bengali ドキュメントレイアウト解析
- Authors: Md Ataullha and Mahedi Hassan Rabby and Mushfiqur Rahman and Tahsina
Bintay Azam
- Abstract要約: 文書レイアウト分析では、文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。
我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。
その結果,ベンガル語の文書を正確に分類する上で,これらのモデルの有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document digitization is vital for preserving historical records, efficient
document management, and advancing OCR (Optical Character Recognition)
research. Document Layout Analysis (DLA) involves segmenting documents into
meaningful units like text boxes, paragraphs, images, and tables. Challenges
arise when dealing with diverse layouts, historical documents, and unique
scripts like Bengali, hindered by the lack of comprehensive Bengali DLA
datasets. We improved the accuracy of the DLA model for Bengali documents by
utilizing advanced Mask R-CNN models available in the Detectron2 library. Our
evaluation involved three variants: Mask R-CNN R-50, R-101, and X-101, both
with and without pretrained weights from PubLayNet, on the BaDLAD dataset,
which contains human-annotated Bengali documents in four categories: text
boxes, paragraphs, images, and tables. Results show the effectiveness of these
models in accurately segmenting Bengali documents. We discuss speed-accuracy
tradeoffs and underscore the significance of pretrained weights. Our findings
expand the applicability of Mask R-CNN in document layout analysis, efficient
document management, and OCR research while suggesting future avenues for
fine-tuning and data augmentation.
- Abstract(参考訳): 文書のデジタル化は、歴史的記録の保存、効率的な文書管理、OCR研究の進展に不可欠である。
Document Layout Analysis (DLA)は文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。
さまざまなレイアウトや履歴文書、Bengaliのようなユニークなスクリプトを扱う場合には、包括的なBengali DLAデータセットの欠如が問題になる。
我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。
Mask R-CNN R-50, R-101, X-101, PubLayNetの事前トレーニング済み重量と未トレーニング重量のいずれにおいても, BaDLADデータセットには, テキストボックス, 段落, 画像, 表の4つのカテゴリがある。
以上の結果から,ベンガル文書のセグメンテーションにおけるモデルの有効性が示唆された。
速度・精度のトレードオフを議論し,事前訓練した重み付けの重要性を強調する。
本研究は, 文書レイアウト解析, 効率的な文書管理, OCR研究におけるMask R-CNNの適用性を拡大するとともに, 微調整とデータ拡張の今後の道筋を示唆するものである。
関連論文リスト
- LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach [0.716879432974126]
我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。
完全なデータセットに対する我々のアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。
私たちの実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。
論文 参考訳(メタデータ) (2023-09-02T07:17:43Z) - bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。
提案手法は現在のベンガルOCRシステムよりも好ましい。
論文 参考訳(メタデータ) (2023-08-21T11:35:28Z) - Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout
Analysis [0.0]
DL Sprint 2.0コンペティションでは、Banglaドキュメントの理解に取り組んだ。
多数のサンプルでBaDLADというデータセットを使用しました。
私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-08-21T06:51:58Z) - BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset [1.2015699532079325]
このデータセットには、6つのドメインから33,695人の注釈付き文書サンプルが含まれている。
深層学習に基づくベンガル文書モデルのトレーニングにおけるデータセットの有効性を示す。
論文 参考訳(メタデータ) (2023-03-09T15:15:55Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。