論文の概要: A New Approach for Texture based Script Identification At Block Level
using Quad Tree Decomposition
- arxiv url: http://arxiv.org/abs/2009.07435v1
- Date: Wed, 16 Sep 2020 02:50:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:17:46.641997
- Title: A New Approach for Texture based Script Identification At Block Level
using Quad Tree Decomposition
- Title(参考訳): クワッドツリー分解を用いたブロックレベルのテクスチャベーススクリプト識別のための新しいアプローチ
- Authors: Pawan Kumar Singh, Supratim Das, Ram Sarkar, Mita Nasipuri
- Abstract要約: マルチスクリプトシナリオが一般的であるインドのような国では、事前にスクリプトを特定することが義務付けられます。
公式手書き文字11文字に対する方向エネルギーとエントロピー分布の抽出におけるガボルウェーブレットフィルタの重要性を示す。
- 参考スコア(独自算出の注目度): 38.20489458130109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A considerable amount of success has been achieved in developing monolingual
OCR systems for Indic scripts. But in a country like India, where multi-script
scenario is prevalent, identifying scripts beforehand becomes obligatory. In
this paper, we present the significance of Gabor wavelets filters in extracting
directional energy and entropy distributions for 11 official handwritten
scripts namely, Bangla, Devanagari, Gujarati, Gurumukhi, Kannada, Malayalam,
Oriya, Tamil, Telugu, Urdu and Roman. The experimentation is conducted at block
level based on a quad-tree decomposition approach and evaluated using six
different well-known classifiers. Finally, the best identification accuracy of
96.86% has been achieved by Multi Layer Perceptron (MLP) classifier for 3-fold
cross validation at level-2 decomposition. The results serve to establish the
efficacy of the present approach to the classification of handwritten Indic
scripts
- Abstract(参考訳): Indicスクリプトのための単言語OCRシステムの開発でかなりの成功を収めた。
しかし、複数のスクリプトシナリオが一般的であるインドのような国では、事前にスクリプトを識別することが義務付けられます。
本稿では,バングラ,デバナガリ,グジャラティ,グルムクヒ,カンナダ,マラヤラム,オリヤ,タミル,テルグ,ウルドゥー,ローマという11の公式手書き文字の方向エネルギーとエントロピー分布の抽出におけるガボルウェーブレットフィルタの重要性について述べる。
実験はクワッドツリー分解法に基づいてブロックレベルで行われ、6つのよく知られた分類器を用いて評価される。
最後に、96.86%の最良の識別精度は、レベル2分解における3次元クロス検証のためのマルチ層パーセプトロン(mlp)分類器によって達成された。
その結果,手書き文字の分類における現在の手法の有効性の確立に寄与する。
関連論文リスト
- Multi-Modal Multi-Granularity Tokenizer for Chu Bamboo Slip Scripts [65.10991154918737]
本研究は、古代中国の春・秋・戦国時代(紀元前771-256年)に用いられた中竹の文字に焦点を当てたものである。
我々のトークンライザはまず文字検出を採用して文字境界の特定を行い、次に文字レベルとサブキャラクタレベルの両方で文字認識を行う。
学術コミュニティを支援するために,100K以上の注釈付き文字イメージスキャンを備えたCBSの最初の大規模データセットも収集した。
論文 参考訳(メタデータ) (2024-09-02T07:42:55Z) - MDIW-13: a New Multi-Lingual and Multi-Script Database and Benchmark for Script Identification [19.021909090693505]
本稿では,スクリプト識別アルゴリズムのベンチマークのための新しいデータベースを提供する。
データセットは、地元の新聞や手書きの手紙からスキャンされた1,135件の文書と、異なるネイティブライターのメモで構成されている。
簡単なベンチマークは、手作りとディープラーニングの手法で提案されている。
論文 参考訳(メタデータ) (2024-05-29T09:29:09Z) - Authorship Attribution in Bangla Literature (AABL) via Transfer Learning
using ULMFiT [0.6919386619690135]
著者属性(英: Authorship Attribution)とは、あるテキストの原作者を特定するために、テキストの適切な特徴づけを作成するタスクである。
英語、スペイン語、中国語など他の言語にも大きな進歩があったが、バングラはこの分野の包括的な研究を欠いている。
既存のシステムは、著者数が増えるとスケーラビリティが低下し、著者1人当たりのサンプル数が少なくなる。
論文 参考訳(メタデータ) (2024-03-08T18:42:59Z) - Enhancing Pashto Text Classification using Language Processing
Techniques for Single And Multi-Label Analysis [0.0]
本研究では,Pashtoテキストの自動分類システムの構築を目的とする。
平均テスト精度は94%だった。
DistilBERTのような事前訓練された言語表現モデルの使用は、有望な結果を示した。
論文 参考訳(メタデータ) (2023-05-04T23:11:31Z) - Chinese Character Recognition with Radical-Structured Stroke Trees [51.8541677234175]
我々は各漢字を,その根本的構造に従って整理されたストロークツリーとして表現する。
本稿では,2段階の分解フレームワークを提案し,特徴-ラディカルデコーダがラジカル構造とラジカル領域を知覚する。
Radical-to-Stroke Decoderはさらに、ラジカル領域の特徴に応じてストロークシーケンスを予測する。
論文 参考訳(メタデータ) (2022-11-24T10:28:55Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Neural Text Generation with Part-of-Speech Guided Softmax [82.63394952538292]
テキスト生成を導くために,言語アノテーション,すなわち部分音声(POS)を用いることを提案する。
提案手法は,比較品質を維持しつつ,より多様なテキストを生成できることを示した。
論文 参考訳(メタデータ) (2021-05-08T08:53:16Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - Handwritten Script Identification from Text Lines [38.1188690493442]
テキスト行レベルで手書き文書からスクリプトを識別する頑健な手法を提案する。
チェインコードヒストグラム(CCH)と離散フーリエ変換(DFT)を用いて抽出した特徴に基づく。
提案手法は、グジャラート、カンナダ、マラヤラム、オリヤ、タミル、テルグ、ウルドゥーの7文字で書かれた800行の手書きのテキストに対して、ローマ文字とともに実験されている。
論文 参考訳(メタデータ) (2020-09-16T02:43:24Z) - LTIatCMU at SemEval-2020 Task 11: Incorporating Multi-Level Features for
Multi-Granular Propaganda Span Identification [70.1903083747775]
本稿では,新聞記事におけるプロパガンダ・スパン識別の課題について述べる。
本稿では,BERT-BiLSTMに基づくプロパガンダ分類モデルを提案する。
論文 参考訳(メタデータ) (2020-08-11T16:14:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。