論文の概要: Bengali Document Layout Analysis with Detectron2
- arxiv url: http://arxiv.org/abs/2308.13769v1
- Date: Sat, 26 Aug 2023 05:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:18:13.267984
- Title: Bengali Document Layout Analysis with Detectron2
- Title(参考訳): detectron2 による bengali ドキュメントレイアウト解析
- Authors: Md Ataullha and Mahedi Hassan Rabby and Mushfiqur Rahman and Tahsina
Bintay Azam
- Abstract要約: 文書レイアウト分析では、文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。
我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。
その結果,ベンガル語の文書を正確に分類する上で,これらのモデルの有効性が示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document digitization is vital for preserving historical records, efficient
document management, and advancing OCR (Optical Character Recognition)
research. Document Layout Analysis (DLA) involves segmenting documents into
meaningful units like text boxes, paragraphs, images, and tables. Challenges
arise when dealing with diverse layouts, historical documents, and unique
scripts like Bengali, hindered by the lack of comprehensive Bengali DLA
datasets. We improved the accuracy of the DLA model for Bengali documents by
utilizing advanced Mask R-CNN models available in the Detectron2 library. Our
evaluation involved three variants: Mask R-CNN R-50, R-101, and X-101, both
with and without pretrained weights from PubLayNet, on the BaDLAD dataset,
which contains human-annotated Bengali documents in four categories: text
boxes, paragraphs, images, and tables. Results show the effectiveness of these
models in accurately segmenting Bengali documents. We discuss speed-accuracy
tradeoffs and underscore the significance of pretrained weights. Our findings
expand the applicability of Mask R-CNN in document layout analysis, efficient
document management, and OCR research while suggesting future avenues for
fine-tuning and data augmentation.
- Abstract(参考訳): 文書のデジタル化は、歴史的記録の保存、効率的な文書管理、OCR研究の進展に不可欠である。
Document Layout Analysis (DLA)は文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。
さまざまなレイアウトや履歴文書、Bengaliのようなユニークなスクリプトを扱う場合には、包括的なBengali DLAデータセットの欠如が問題になる。
我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。
Mask R-CNN R-50, R-101, X-101, PubLayNetの事前トレーニング済み重量と未トレーニング重量のいずれにおいても, BaDLADデータセットには, テキストボックス, 段落, 画像, 表の4つのカテゴリがある。
以上の結果から,ベンガル文書のセグメンテーションにおけるモデルの有効性が示唆された。
速度・精度のトレードオフを議論し,事前訓練した重み付けの重要性を強調する。
本研究は, 文書レイアウト解析, 効率的な文書管理, OCR研究におけるMask R-CNNの適用性を拡大するとともに, 微調整とデータ拡張の今後の道筋を示唆するものである。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。
また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。
本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文 参考訳(メタデータ) (2024-05-08T10:10:38Z) - Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach [0.6562256987706128]
我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。
完全なデータセットに対する我々のアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。
私たちの実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。
論文 参考訳(メタデータ) (2023-09-02T07:17:43Z) - bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。
提案手法は現在のベンガルOCRシステムよりも好ましい。
論文 参考訳(メタデータ) (2023-08-21T11:35:28Z) - Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout
Analysis [0.0]
DL Sprint 2.0コンペティションでは、Banglaドキュメントの理解に取り組んだ。
多数のサンプルでBaDLADというデータセットを使用しました。
私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。
論文 参考訳(メタデータ) (2023-08-21T06:51:58Z) - BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset [1.2015699532079325]
このデータセットには、6つのドメインから33,695人の注釈付き文書サンプルが含まれている。
深層学習に基づくベンガル文書モデルのトレーニングにおけるデータセットの有効性を示す。
論文 参考訳(メタデータ) (2023-03-09T15:15:55Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。