論文の概要: BanglaWriting: A multi-purpose offline Bangla handwriting dataset
- arxiv url: http://arxiv.org/abs/2011.07499v3
- Date: Fri, 19 Aug 2022 14:06:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:05:03.611541
- Title: BanglaWriting: A multi-purpose offline Bangla handwriting dataset
- Title(参考訳): BanglaWriting: 多目的オフラインBangla手書きデータセット
- Authors: M. F. Mridha, Abu Quwsar Ohi, M. Ameer Ali, Mazedul Islam Emon,
Muhammad Mohsin Kabir
- Abstract要約: この記事では、個性が異なる260人の個人による1ページの筆跡を含む、バングラ手書きデータセットについて述べる。
このデータセットは合計21,234文字と450文字を含み、このページは32,470のユニークな単語を表現している。
このデータセットは、複雑な光学的文字認識、手書きの単語識別、手書きのバリエーション、および文字の単語生成に使用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article presents a Bangla handwriting dataset named BanglaWriting that
contains single-page handwritings of 260 individuals of different personalities
and ages. Each page includes bounding-boxes that bounds each word, along with
the unicode representation of the writing. This dataset contains 21,234 words
and 32,787 characters in total. Moreover, this dataset includes 5,470 unique
words of Bangla vocabulary. Apart from the usual words, the dataset comprises
261 comprehensible overwriting and 450 handwritten strikes and mistakes. All of
the bounding-boxes and word labels are manually-generated. The dataset can be
used for complex optical character/word recognition, writer identification,
handwritten word segmentation, and word generation. Furthermore, this dataset
is suitable for extracting age-based and gender-based variation of handwriting.
- Abstract(参考訳): 本稿は,個人差と年齢差の異なる260人の筆跡を含む,バングラ筆跡という名のバングラ筆跡データセットを提案する。
各ページには、各単語とunicode文の表現とを結ぶバウンディングボックスが含まれている。
このデータセットは21,234語、合計32,787文字を含む。
さらに、このデータセットには、バングラ語彙の5,470のユニークな単語が含まれている。
通常の言葉とは別に、データセットは261の理解可能なオーバーライトと450の手書きのストライクとミスで構成されている。
すべてのバウンディングボックスとワードラベルは手作業で生成される。
このデータセットは、複雑な光学文字/単語認識、作者識別、手書き単語分割、単語生成に使用できる。
さらに、このデータセットは、年齢および性別による手書き変化を抽出するのに適している。
関連論文リスト
- Muharaf: Manuscripts of Handwritten Arabic Dataset for Cursive Text Recognition [5.28595286827031]
Manuscripts of Hand written Arabic(Muharaf)データセットは、1,600以上の歴史的な手書きページイメージからなる機械学習データセットである。
このデータセットは、手書きのテキスト認識において、最先端の技術を前進させるためにコンパイルされた。
論文 参考訳(メタデータ) (2024-06-13T23:40:34Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - BN-DRISHTI: Bangla Document Recognition through Instance-level
Segmentation of Handwritten Text Images [0.0]
本稿では,ハフ変換とアフィン変換を併用した深層学習に基づくオブジェクト検出フレームワーク(YOLO)を提案する。
BN-HTRdデータセットの拡張版として、786個の全ページ手書きBangla文書画像を示す。
Fスコアは行数99.97%,単語セグメンテーション98%であった。
論文 参考訳(メタデータ) (2023-05-31T04:08:57Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - BN-HTRd: A Benchmark Dataset for Document Level Offline Bangla
Handwritten Text Recognition (HTR) and Line Segmentation [0.0]
我々は,単語,行,文書レベルのアノテーションからなるBanglaスクリプトの画像から,オフライン手書き文字認識(HTR)のための新しいデータセットを提案する。
BN-HTRdデータセットはBBC Bangla News corpusに基づいている。
私たちのデータセットには、約150の異なる著者によって作成された手書きページの788のイメージが含まれています。
論文 参考訳(メタデータ) (2022-05-29T22:56:26Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes [1.009810782568186]
そこで本稿では, 単語を線形に分割するラベリング手法を提案する。
データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。
このデータセットは、Kaggleの公開手書きグラフ分類チャレンジの一部として、オープンソースとして公開されている。
論文 参考訳(メタデータ) (2020-10-01T01:51:45Z) - MatriVasha: A Multipurpose Comprehensive Database for Bangla Handwritten
Compound Characters [0.0]
MatrriVashaは、Banglaを認識でき、複数の複合文字を手書きするプロジェクトである。
提案したデータセットは、現在までにバングラ複合文字の最も広範なデータセットである。
論文 参考訳(メタデータ) (2020-04-29T06:38:12Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。