論文の概要: Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout
Analysis
- arxiv url: http://arxiv.org/abs/2308.10511v2
- Date: Tue, 22 Aug 2023 14:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 10:23:00.413102
- Title: Performance Enhancement Leveraging Mask-RCNN on Bengali Document Layout
Analysis
- Title(参考訳): ベンガル文書レイアウト解析におけるマスク-RCNNの性能向上
- Authors: Shrestha Datta and Md Adith Mollah and Raisa Fairooz and Tariful Islam
Fahim
- Abstract要約: DL Sprint 2.0コンペティションでは、Banglaドキュメントの理解に取り組んだ。
多数のサンプルでBaDLADというデータセットを使用しました。
私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding digital documents is like solving a puzzle, especially
historical ones. Document Layout Analysis (DLA) helps with this puzzle by
dividing documents into sections like paragraphs, images, and tables. This is
crucial for machines to read and understand these documents. In the DL Sprint
2.0 competition, we worked on understanding Bangla documents. We used a dataset
called BaDLAD with lots of examples. We trained a special model called Mask
R-CNN to help with this understanding. We made this model better by
step-by-step hyperparameter tuning, and we achieved a good dice score of 0.889.
However, not everything went perfectly. We tried using a model trained for
English documents, but it didn't fit well with Bangla. This showed us that each
language has its own challenges. Our solution for the DL Sprint 2.0 is publicly
available at https://www.kaggle.com/competitions/dlsprint2/discussion/432201
along with notebooks, weights, and inference notebook.
- Abstract(参考訳): デジタル文書を理解することは、パズル、特に歴史的な問題を解くようなものだ。
Document Layout Analysis (DLA)は、文書を段落、画像、テーブルなどのセクションに分割することで、このパズルを支援する。
これは機械がこれらの文書を読んで理解する上で重要である。
DL Sprint 2.0コンペティションでは、Banglaドキュメントの理解に取り組んだ。
多数のサンプルでBaDLADというデータセットを使用しました。
私たちはこの理解を支援するために、Mask R-CNNと呼ばれる特別なモデルをトレーニングしました。
このモデルをステップバイステップのハイパーパラメータチューニングにより改善し,良好なサイススコア0.889を得た。
しかし、すべてが完璧ではなかった。
英語の文書のために訓練されたモデルを試したが、それはBanglaに合わなかった。
これは各言語が独自の課題を持っていることを示している。
DL Sprint 2.0のソリューションは、ノートブック、ウェイト、推論ノートとともにhttps://www.kaggle.com/competitions/dlsprint2/discussion/432201で公開されています。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - LiLiuM: eBay's Large Language Models for e-commerce [6.819297537500464]
大規模言語モデル (LLM) のLiLiuM シリーズについて紹介する: 1B, 7B, 13B パラメータモデル。
これにより、eBayは、ライセンス、データ、語彙、アーキテクチャを含むモデルのすべての側面を完全にコントロールできる。
LiLiuM LLMは、一般およびeコマースドメインから3兆個の多言語テキストのトークンで訓練されている。
論文 参考訳(メタデータ) (2024-06-17T18:45:41Z) - Bengali Document Layout Analysis with Detectron2 [0.0]
文書レイアウト分析では、文書をテキストボックス、段落、画像、テーブルなどの意味のある単位に分割する。
我々は, ベンガル語文書のDLAモデルの精度を, Detectron2ライブラリで利用可能な高度なMask R-CNNモデルを用いて改善した。
その結果,ベンガル語の文書を正確に分類する上で,これらのモデルの有効性が示された。
論文 参考訳(メタデータ) (2023-08-26T05:29:09Z) - Framework and Model Analysis on Bengali Document Layout Analysis
Dataset: BaDLAD [0.7925493098304448]
本研究では,先進的なコンピュータプログラムである Detectron2, YOLOv8, SAM を用いた Bengali Document Layouts の理解に焦点を当てた。
それらの精度と速度を比較することで、どの文書が異なる種類の文書に適しているかを学習した。
論文 参考訳(メタデータ) (2023-08-15T07:52:24Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - VTLayout: Fusion of Visual and Text Features for Document Layout
Analysis [5.836306027133707]
文書レイアウト分析(DLA)は、歴史文書や科学文書の豊富な情報を大規模に収集する可能性がある。
本稿では,文書の深い視覚的,浅い視覚的,テキスト的特徴を融合させ,カテゴリブロックを識別するVTモデルを提案する。
VTの識別能力はPubLayNetデータセットに基づく最も高度なDLA法よりも優れており、F1スコアは0.9599である。
論文 参考訳(メタデータ) (2021-08-12T17:12:11Z) - MexPub: Deep Transfer Learning for Metadata Extraction from German
Publications [1.1549572298362785]
本稿では,PDF文書を画像として見ることにより,異なるレイアウトやスタイルでメタデータを抽出する手法を提案する。
提案手法は, 各種PDF文書からメタデータを正確に抽出する能力を検証し, 平均90%の精度を達成した。
論文 参考訳(メタデータ) (2021-06-04T09:43:48Z) - LayoutLMv2: Multi-modal Pre-training for Visually-Rich Document
Understanding [49.941806975280045]
テキストとレイアウトの事前トレーニングは、視覚的に豊富な文書理解タスクで有効であることが証明されています。
テキスト,レイアウト,イメージをマルチモーダルフレームワークで事前学習することで,テキスト-bfLMv2を提示する。
論文 参考訳(メタデータ) (2020-12-29T13:01:52Z) - LayoutLM: Pre-training of Text and Layout for Document Image
Understanding [108.12766816023783]
スキャンした文書画像間でのテキストとレイアウト情報の相互作用を協調的にモデル化するtextbfLMを提案する。
ドキュメントレベルの事前トレーニングのための単一のフレームワークで、テキストとレイアウトが共同で学習されたのは、これが初めてです。
フォーム理解(70.72から79.27まで)、レセプション理解(94.02から95.24まで)、文書画像分類(93.07から94.42まで)など、いくつかのダウンストリームタスクで新しい最先端の成果を達成する。
論文 参考訳(メタデータ) (2019-12-31T14:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。