論文の概要: A Post-Processing Based Bengali Document Layout Analysis with YOLOV8
- arxiv url: http://arxiv.org/abs/2309.00848v1
- Date: Sat, 2 Sep 2023 07:17:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 00:45:47.879705
- Title: A Post-Processing Based Bengali Document Layout Analysis with YOLOV8
- Title(参考訳): yolov8を用いたポストプロセッシングベースのベンガル文書レイアウト解析
- Authors: Nazmus Sakib Ahmed, Saad Sakib Noor, Ashraful Islam Shanto Sikder,
Abhijit Paul
- Abstract要約: 我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。
完全なデータセットに対する我々のアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。
私たちの実験は、新しい戦略を確立されたソリューションに組み込む上で重要な洞察を与えました。
- 参考スコア(独自算出の注目度): 0.716879432974126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper focuses on enhancing Bengali Document Layout Analysis (DLA) using
the YOLOv8 model and innovative post-processing techniques. We tackle
challenges unique to the complex Bengali script by employing data augmentation
for model robustness. After meticulous validation set evaluation, we fine-tune
our approach on the complete dataset, leading to a two-stage prediction
strategy for accurate element segmentation. Our ensemble model, combined with
post-processing, outperforms individual base architectures, addressing issues
identified in the BaDLAD dataset. By leveraging this approach, we aim to
advance Bengali document analysis, contributing to improved OCR and document
comprehension and BaDLAD serves as a foundational resource for this endeavor,
aiding future research in the field. Furthermore, our experiments provided key
insights to incorporate new strategies into the established solution.
- Abstract(参考訳): 本稿では, YOLOv8モデルと革新的な後処理技術を用いて, Bengali Document Layout Analysis (DLA) の強化に着目する。
我々は、モデルロバストネスにデータ拡張を採用することで、複雑なBengaliスクリプトに特有の課題に取り組む。
精細な検証セットの評価を行った後、完全なデータセットに対するアプローチを微調整し、正確な要素セグメンテーションのための2段階の予測戦略を導いた。
我々のアンサンブルモデルと後処理の組み合わせは、BaDLADデータセットで特定された問題に対処しながら、個々のベースアーキテクチャよりも優れています。
このアプローチを活用することで,ベンガルの文書分析を推進し,OCRの改善と文書理解に寄与することを目指しており,BaDLADはこの取り組みの基盤として機能し,今後の研究を支援する。
さらに,新たな戦略を確立したソリューションに組み込む上で,実験は重要な洞察を与えました。
関連論文リスト
- Eagle 2: Building Post-Training Data Strategies from Scratch for Frontier Vision-Language Models [90.46966584238682]
ほとんどのオープンソースのビジョン言語モデルは、最終的なモデルウェイトのみを公開しており、データ戦略と実装に関する重要な詳細は、ほとんど不透明である。
本稿では,フロンティアVLMの開発におけるデータ戦略の重要な役割を示すとともに,データ中心の観点からのVLMポストトレーニングに対処する。
トレーニング後のデータ戦略をゼロから研究し、構築することで、私たちは開発プロセスに関する詳細な洞察を共有し、オープンソースコミュニティのための競争モデルの開発に役立てることを目指しています。
論文 参考訳(メタデータ) (2025-01-20T18:40:47Z) - Multi-modal Retrieval Augmented Multi-modal Generation: Datasets, Evaluation Metrics and Strong Baselines [64.61315565501681]
M$2$RAG(Multi-modal Retrieval Augmented Multi-modal Generation)は、基礎モデルのマルチモーダルWebコンテンツ処理を可能にする新しいタスクである。
潜在的な影響にもかかわらず、M$2$RAGは、包括的な分析と高品質なデータリソースを欠いている。
論文 参考訳(メタデータ) (2024-11-25T13:20:19Z) - Unveiling the Potential of LLM-Based ASR on Chinese Open-Source Datasets [22.29915616018026]
LLM(Large Language Models)は、様々なNLPタスクにおいて非並列の有効性を示す。
本研究の目的は,音声エンコーダ,LLM,プロジェクタモジュールの様々な構成の影響を評価することである。
本研究では,3段階の学習手法を導入し,モデルが聴覚情報とテキスト情報を整合させる能力を高めることを目的とした。
論文 参考訳(メタデータ) (2024-05-03T14:35:58Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - Ensemble of Anchor-Free Models for Robust Bangla Document Layout
Segmentation [0.0]
本稿では,Bangla文書のレイアウトをセグメント化するための新しい手法を提案する。
我々の手法は、DL Sprint 2.0 - BUET CSE Fest 2023 コンペティションのために訓練されたYOLOv8モデルの洗練されたアンサンブルを利用する。
論文 参考訳(メタデータ) (2023-08-28T08:24:25Z) - Continual Contrastive Finetuning Improves Low-Resource Relation
Extraction [34.76128090845668]
関係抽出は低リソースのシナリオやドメインでは特に困難である。
近年の文献は自己教師型学習によって低リソースREに取り組みつつある。
コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。
論文 参考訳(メタデータ) (2022-12-21T07:30:22Z) - Improving Meta-learning for Low-resource Text Classification and
Generation via Memory Imitation [87.98063273826702]
本稿では,メモリ模倣メタラーニング(MemIML)手法を提案する。
本手法の有効性を証明するために理論的解析を行った。
論文 参考訳(メタデータ) (2022-03-22T12:41:55Z) - Accurate Fine-grained Layout Analysis for the Historical Tibetan
Document Based on the Instance Segmentation [0.9420795715422711]
そこで本稿では, チベット古文書のレイアウト解析を行うために, 細粒なサブラインレベルのレイアウト解析手法を提案する。
動的で信頼性の高いデータセットを構築するための高速化手法を提案する。
ネットワークがトレーニングされると、テキスト行、文、タイトルのインスタンスがセグメント化され、識別される。
実験の結果,提案手法はデータセットに十分な72.7%のAPを提供することがわかった。
論文 参考訳(メタデータ) (2021-10-15T15:49:44Z) - BERT based sentiment analysis: A software engineering perspective [0.9176056742068814]
本稿では、感情分析のためのBERTモデルを分析するための3つの戦略を提案する。
実験結果から, BERTに基づくアンサンブル手法と圧縮BERTモデルにより, 3つのデータセットのF1測定ツールよりも6-12%向上したことがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:28:26Z) - PoBRL: Optimizing Multi-Document Summarization by Blending Reinforcement
Learning Policies [68.8204255655161]
マルチドキュメントの要約を解くための強化学習ベースのフレームワーク PoBRL を提案する。
私たちの戦略は、この多対象最適化を、強化学習によって個別に解決できるさまざまなサブ問題に分離します。
実験結果から,複数のマルチドキュメントデータセットにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2021-05-18T02:55:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。