Fugu-MT 論文翻訳(概要): Bengali Document Layout Analysis with Detectron2

論文の概要: Bengali Document Layout Analysis with Detectron2

arxiv url: http://arxiv.org/abs/2308.13769v1
Date: Sat, 26 Aug 2023 05:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 19:18:13.267984
Title: Bengali Document Layout Analysis with Detectron2
Title（参考訳）: detectron2 による bengali ドキュメントレイアウト解析
Authors: Md Ataullha and Mahedi Hassan Rabby and Mushfiqur Rahman and Tahsina Bintay Azam
Abstract要約: 文書レイアウト分析では、文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。その結果,ベンガル語の文書を正確に分類する上で,これらのモデルの有効性が示された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document digitization is vital for preserving historical records, efficient document management, and advancing OCR (Optical Character Recognition) research. Document Layout Analysis (DLA) involves segmenting documents into meaningful units like text boxes, paragraphs, images, and tables. Challenges arise when dealing with diverse layouts, historical documents, and unique scripts like Bengali, hindered by the lack of comprehensive Bengali DLA datasets. We improved the accuracy of the DLA model for Bengali documents by utilizing advanced Mask R-CNN models available in the Detectron2 library. Our evaluation involved three variants: Mask R-CNN R-50, R-101, and X-101, both with and without pretrained weights from PubLayNet, on the BaDLAD dataset, which contains human-annotated Bengali documents in four categories: text boxes, paragraphs, images, and tables. Results show the effectiveness of these models in accurately segmenting Bengali documents. We discuss speed-accuracy tradeoffs and underscore the significance of pretrained weights. Our findings expand the applicability of Mask R-CNN in document layout analysis, efficient document management, and OCR research while suggesting future avenues for fine-tuning and data augmentation.
Abstract（参考訳）: 文書のデジタル化は、歴史的記録の保存、効率的な文書管理、OCR研究の進展に不可欠である。 Document Layout Analysis (DLA)は文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。さまざまなレイアウトや履歴文書、Bengaliのようなユニークなスクリプトを扱う場合には、包括的なBengali DLAデータセットの欠如が問題になる。我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。 Mask R-CNN R-50, R-101, X-101, PubLayNetの事前トレーニング済み重量と未トレーニング重量のいずれにおいても, BaDLADデータセットには, テキストボックス, 段落, 画像, 表の4つのカテゴリがある。以上の結果から,ベンガル文書のセグメンテーションにおけるモデルの有効性が示唆された。速度・精度のトレードオフを議論し,事前訓練した重み付けの重要性を強調する。本研究は, 文書レイアウト解析, 効率的な文書管理, OCR研究におけるMask R-CNNの適用性を拡大するとともに, 微調整とデータ拡張の今後の道筋を示唆するものである。

関連論文リスト

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
DREAM: Document Reconstruction via End-to-end Autoregressive Model [53.51754520966657]
本稿では、文書再構成に特化した革新的な自己回帰モデルについて述べる。文書再構成タスクの標準化定義を確立し,文書類似度基準(DSM)とDocRec1Kデータセットを導入し,タスクの性能を評価する。
論文参考訳（メタデータ） (2025-07-08T09:24:07Z)
Benchmarking Graph Neural Networks for Document Layout Analysis in Public Affairs [12.745520645025808]
我々は,デジタルネイティブ文書からテキストブロックの詳細なレイアウト分類を行うために,グラフニューラルネットワーク(GNN)アーキテクチャをベンチマークした。両ブランチ構成のk-closest-neighborグラフ上でグラフSAGEを動作させることで,クラスごとの最大精度と全体的な精度が得られることを示す。
論文参考訳（メタデータ） (2025-05-12T10:59:30Z)
A RAG-Based Institutional Assistant [0.1499944454332829]
我々は,サンパウロ大学に特化されたRAGベースの仮想アシスタントの設計と評価を行った。最適レトリバーモデルではトップ5の精度が30%,最も有効な生成モデルでは22.04%,真理回答では22.04%のスコアが得られた。
論文参考訳（メタデータ） (2025-01-23T17:54:19Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
Lightweight Spatial Modeling for Combinatorial Information Extraction From Documents [31.434507306952458]
文書エンティティのK-nearest-neighbor(KNN)グラフに基づいて,注目度計算の新たなバイアスを取り入れたKNNフォーマを提案する。また、多くの文書に存在する1対1のマッピング特性に対処するために、マッチング空間を用いる。本手法はトレーニング可能なパラメータの数の観点から既存の手法と比較して非常に効率的である。
論文参考訳（メタデータ） (2024-05-08T10:10:38Z)
Bengali Document Layout Analysis -- A YOLOV8 Based Ensembling Approach [0.6562256987706128]
我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。完全なデータセットに対する我々のアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。私たちの実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。
論文参考訳（メタデータ） (2023-09-02T07:17:43Z)
Continual Learning for Generative Retrieval over Dynamic Corpora [115.79012933205756]
生成検索(GR)はパラメトリックモデルに基づいて関連文書の識別子(ドシデクス)を直接予測する。クエリに応答する能力を保ちながら、新しいドキュメントをインクリメンタルにインデックスする能力は、GRモデルを適用する上で不可欠である。我々は,CLEVERモデルのための新しい連続学習モデルを提案し,GRのための連続学習に2つの大きな貢献をした。
論文参考訳（メタデータ） (2023-08-29T01:46:06Z)
bbOCR: An Open-source Multi-domain OCR Pipeline for Bengali Documents [0.23639235997306196]
我々はBengali$.$AI-BRACU-OCR(bbOCR)を紹介した。提案手法は現在のベンガルOCRシステムよりも好ましい。
論文参考訳（メタデータ） (2023-08-21T11:35:28Z)
Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout Analysis [0.0]
DL Sprint 2.0コンペティションでは、Banglaドキュメントの理解に取り組んだ。多数のサンプルでBaDLADというデータセットを使用しました。私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。
論文参考訳（メタデータ） (2023-08-21T06:51:58Z)
BaDLAD: A Large Multi-Domain Bengali Document Layout Analysis Dataset [1.2015699532079325]
このデータセットには、6つのドメインから33,695人の注釈付き文書サンプルが含まれている。深層学習に基づくベンガル文書モデルのトレーニングにおけるデータセットの有効性を示す。
論文参考訳（メタデータ） (2023-03-09T15:15:55Z)
GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。 FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文参考訳（メタデータ） (2022-04-12T03:49:35Z)
Augmenting Document Representations for Dense Retrieval with Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。 2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-03-15T09:07:38Z)
One-shot Key Information Extraction from Document with Deep Partial Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。 KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文参考訳（メタデータ） (2021-09-26T07:45:53Z)
DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文参考訳（メタデータ） (2020-06-01T16:04:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。