Fugu-MT 論文翻訳(概要): BN-DRISHTI: Bangla Document Recognition through Instance-level Segmentation of Handwritten Text Images

論文の概要: BN-DRISHTI: Bangla Document Recognition through Instance-level Segmentation of Handwritten Text Images

arxiv url: http://arxiv.org/abs/2306.09351v1
Date: Wed, 31 May 2023 04:08:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-26 01:52:56.062612
Title: BN-DRISHTI: Bangla Document Recognition through Instance-level Segmentation of Handwritten Text Images
Title（参考訳）: BN-DRISHTI:手書きテキスト画像のインスタンスレベルのセグメンテーションによる文書認識
Authors: Sheikh Mohammad Jubaer, Nazifa Tabassum, Md. Ataur Rahman, Mohammad Khairul Islam
Abstract要約: 本稿では,ハフ変換とアフィン変換を併用した深層学習に基づくオブジェクト検出フレームワーク(YOLO)を提案する。 BN-HTRdデータセットの拡張版として、786個の全ページ手書きBangla文書画像を示す。 Fスコアは行数99.97%,単語セグメンテーション98%であった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Handwriting recognition remains challenging for some of the most spoken languages, like Bangla, due to the complexity of line and word segmentation brought by the curvilinear nature of writing and lack of quality datasets. This paper solves the segmentation problem by introducing a state-of-the-art method (BN-DRISHTI) that combines a deep learning-based object detection framework (YOLO) with Hough and Affine transformation for skew correction. However, training deep learning models requires a massive amount of data. Thus, we also present an extended version of the BN-HTRd dataset comprising 786 full-page handwritten Bangla document images, line and word-level annotation for segmentation, and corresponding ground truths for word recognition. Evaluation on the test portion of our dataset resulted in an F-score of 99.97% for line and 98% for word segmentation. For comparative analysis, we used three external Bangla handwritten datasets, namely BanglaWriting, WBSUBNdb_text, and ICDAR 2013, where our system outperformed by a significant margin, further justifying the performance of our approach on completely unseen samples.
Abstract（参考訳）: 書き起こし認識は、行や単語のセグメンテーションの複雑さが、書き起こしの性質と品質データセットの欠如によってもたらされるため、Banglaのような最も話されている言語では依然として難しい。本稿では,deep learning-based object detection framework(yolo)とhoughとアフィン変換を組み合わせたスキュー補正のための最先端法(bn-drishti)を導入することで,セグメンテーション問題を解決する。しかし、ディープラーニングモデルのトレーニングには膨大なデータが必要です。そこで本研究では,全ページ手書きバングラ文書画像786,セグメンテーション用行・単語レベルアノテーション,単語認識用基底真理を含むbn-htrdデータセットの拡張版を提案する。データセットのテスト部分の評価の結果、f-scoreはラインで99.97%、ワードセグメンテーションで98%であった。比較分析では,Bangla Writing, WBSUBNdb_text, ICDAR 2013という3つの外部データを用いた。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Online Writer Retrieval with Chinese Handwritten Phrases: A Synergistic Temporal-Frequency Representation Learning Approach [53.189911918976655]
DOLPHINは,相乗的時間周波数解析による手書き表現の向上を目的とした新しい検索モデルである。 OLIWER(OLIWER)は,1,731人から670,000以上の中国語の字句を含む大規模オンライン作家検索データセットである。本研究は,手書き表現の質向上における点サンプリング周波数と圧力特性の重要性を強調した。
論文参考訳（メタデータ） (2024-12-16T11:19:22Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。 DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-05-30T07:25:23Z)
From Text Segmentation to Smart Chaptering: A Novel Benchmark for Structuring Video Transcriptions [63.11097464396147]
音声コンテンツに焦点をあてた新しいベンチマークYTSegを導入し、その内容は本質的に非構造的であり、トポロジと構造的にも多様である。また,高効率な階層分割モデルMiniSegを導入する。
論文参考訳（メタデータ） (2024-02-27T15:59:37Z)
Handwritten and Printed Text Segmentation: A Signature Case Study [0.0]
我々は手書きテキストセグメンテーションの課題に対処するための新しいアプローチを開発する。我々の目的は、クラス全体からテキストを復元することであり、特に重なり合う部分のセグメンテーション性能を向上させることである。私たちの最高の設定は、以前の2つの異なるデータセットで17.9%、IoUスコアで7.3%のパフォーマンスを上回っています。
論文参考訳（メタデータ） (2023-07-15T21:49:22Z)
Betrayed by Captions: Joint Caption Grounding and Generation for Open Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文参考訳（メタデータ） (2023-01-02T18:52:12Z)
BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。 BN-HTRdデータセットはBBC Bangla News corpusに基づいている。私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文参考訳（メタデータ） (2022-05-29T22:56:26Z)
Robust Text Line Detection in Historical Documents: Learning and Evaluation Methods [1.9938405188113029]
本稿では,3つの最先端システムDoc-UFCN,dhSegment,ARU-Netを用いて実験を行った。多様な未確認ページを正確にセグメント化できる,さまざまな履歴文書データセットに基づいてトレーニングされた汎用モデルを構築することが可能であることを示す。
論文参考訳（メタデータ） (2022-03-23T11:56:25Z)
One-shot Compositional Data Generation for Low Resource Handwritten Text Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文参考訳（メタデータ） (2021-05-11T18:53:01Z)
Minimally-Supervised Structure-Rich Text Categorization via Learning on Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文参考訳（メタデータ） (2021-02-23T04:14:34Z)
Off-Line Arabic Handwritten Words Segmentation using Morphological Operators [0.0]
このフレームワークは、前処理、セグメンテーション、評価の3つのステップに基づいて提案される。提案モデルは、関連作品と比較して最高精度を達成しました。
論文参考訳（メタデータ） (2021-01-07T23:38:53Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。