論文の概要: BN-DRISHTI: Bangla Document Recognition through Instance-level
Segmentation of Handwritten Text Images
- arxiv url: http://arxiv.org/abs/2306.09351v1
- Date: Wed, 31 May 2023 04:08:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-26 01:52:56.062612
- Title: BN-DRISHTI: Bangla Document Recognition through Instance-level
Segmentation of Handwritten Text Images
- Title(参考訳): BN-DRISHTI:手書きテキスト画像のインスタンスレベルのセグメンテーションによる文書認識
- Authors: Sheikh Mohammad Jubaer, Nazifa Tabassum, Md. Ataur Rahman, Mohammad
Khairul Islam
- Abstract要約: 本稿では,ハフ変換とアフィン変換を併用した深層学習に基づくオブジェクト検出フレームワーク(YOLO)を提案する。
BN-HTRdデータセットの拡張版として、786個の全ページ手書きBangla文書画像を示す。
Fスコアは行数99.97%,単語セグメンテーション98%であった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Handwriting recognition remains challenging for some of the most spoken
languages, like Bangla, due to the complexity of line and word segmentation
brought by the curvilinear nature of writing and lack of quality datasets. This
paper solves the segmentation problem by introducing a state-of-the-art method
(BN-DRISHTI) that combines a deep learning-based object detection framework
(YOLO) with Hough and Affine transformation for skew correction. However,
training deep learning models requires a massive amount of data. Thus, we also
present an extended version of the BN-HTRd dataset comprising 786 full-page
handwritten Bangla document images, line and word-level annotation for
segmentation, and corresponding ground truths for word recognition. Evaluation
on the test portion of our dataset resulted in an F-score of 99.97% for line
and 98% for word segmentation. For comparative analysis, we used three external
Bangla handwritten datasets, namely BanglaWriting, WBSUBNdb_text, and ICDAR
2013, where our system outperformed by a significant margin, further justifying
the performance of our approach on completely unseen samples.
- Abstract(参考訳): 書き起こし認識は、行や単語のセグメンテーションの複雑さが、書き起こしの性質と品質データセットの欠如によってもたらされるため、Banglaのような最も話されている言語では依然として難しい。
本稿では,deep learning-based object detection framework(yolo)とhoughとアフィン変換を組み合わせたスキュー補正のための最先端法(bn-drishti)を導入することで,セグメンテーション問題を解決する。
しかし、ディープラーニングモデルのトレーニングには膨大なデータが必要です。
そこで本研究では,全ページ手書きバングラ文書画像786,セグメンテーション用行・単語レベルアノテーション,単語認識用基底真理を含むbn-htrdデータセットの拡張版を提案する。
データセットのテスト部分の評価の結果、f-scoreはラインで99.97%、ワードセグメンテーションで98%であった。
比較分析では,Bangla Writing, WBSUBNdb_text, ICDAR 2013という3つの外部データを用いた。
関連論文リスト
- From Text Segmentation to Smart Chaptering: A Novel Benchmark for
Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。
また,高効率な階層分割モデルMiniSegを導入する。
論文 参考訳(メタデータ) (2024-02-27T15:59:37Z) - Retrieval is Accurate Generation [104.21926758253286]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。
我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。
私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文 参考訳(メタデータ) (2023-07-15T21:49:22Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - Robust Text Line Detection in Historical Documents: Learning and
Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。
多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文 参考訳(メタデータ) (2022-03-23T11:56:25Z) - Learning from Partially Overlapping Labels: Image Segmentation under
Annotation Shift [68.6874404805223]
腹部臓器分節の文脈におけるラベルの重複から学ぶためのいくつかの方法を提案する。
半教師付きアプローチと適応的クロスエントロピー損失を組み合わせることで、不均一な注釈付きデータをうまく活用できることが判明した。
論文 参考訳(メタデータ) (2021-07-13T09:22:24Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z) - Off-Line Arabic Handwritten Words Segmentation using Morphological
Operators [0.0]
このフレームワークは、前処理、セグメンテーション、評価の3つのステップに基づいて提案される。
提案モデルは、関連作品と比較して最高精度を達成しました。
論文 参考訳(メタデータ) (2021-01-07T23:38:53Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。