論文の概要: Sparse Concept Coded Tetrolet Transform for Unconstrained Odia Character
Recognition
- arxiv url: http://arxiv.org/abs/2004.01551v1
- Date: Fri, 3 Apr 2020 13:20:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 05:04:23.022025
- Title: Sparse Concept Coded Tetrolet Transform for Unconstrained Odia Character
Recognition
- Title(参考訳): 制約のないodia文字認識のためのスパース概念符号化テトロレット変換
- Authors: Kalyan S Dash, N B Puhan, G Panda
- Abstract要約: スパースの概念を符号化したテトロレットを用いて,制約なしの英数字に対する新しい画像表現手法を提案する。
提案するOCRシステムは,PCA,SparsePCA,Slantletなどのスパースベース技術よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature representation in the form of spatio-spectral decomposition is one of
the robust techniques adopted in automatic handwritten character recognition
systems. In this regard, we propose a new image representation approach for
unconstrained handwritten alphanumeric characters using sparse concept coded
Tetrolets. Tetrolets, which does not use fixed dyadic square blocks for
spectral decomposition like conventional wavelets, preserve the localized
variations in handwritings by adopting tetrominoes those capture the shape
geometry. The sparse concept coding of low entropy Tetrolet representation is
found to extract the important hidden information (concept) for superior
pattern discrimination. Large scale experimentation using ten databases in six
different scripts (Bangla, Devanagari, Odia, English, Arabic and Telugu) has
been performed. The proposed feature representation along with standard
classifiers such as random forest, support vector machine (SVM), nearest
neighbor and modified quadratic discriminant function (MQDF) is found to
achieve state-of-the-art recognition performance in all the databases, viz.
99.40% (MNIST); 98.72% and 93.24% (IITBBS); 99.38% and 99.22% (ISI Kolkata).
The proposed OCR system is shown to perform better than other sparse based
techniques such as PCA, SparsePCA and SparseLDA, as well as better than
existing transforms (Wavelet, Slantlet and Stockwell).
- Abstract(参考訳): 自動手書き文字認識システムにおいて, スペクトル分解による特徴表現は頑健な手法の1つである。
そこで本稿では,制約のない手書き文字に対して,スパース・コンセプト・コード・テトロレットを用いた新しい画像表現手法を提案する。
従来のウェーブレットのようなスペクトル分解に固定された二乗ブロックを使用しないテトロミノは、形状を捉えたテトロミノを採用することで、手書きの局所的な変動を保っている。
低エントロピーのテトロレット表現のスパースな概念符号化は、優れたパターン識別のために重要な隠れ情報(概念)を抽出する。
Bangla, Devanagari, Odia, English, Arabic, Teluguの6つの異なるスクリプトで10のデータベースを用いて大規模な実験が行われた。
ランダムフォレスト、サポートベクターマシン(svm)、最寄りの隣接および修正された二次判別関数(mqdf)といった標準の分類器と共に提案された特徴表現は、すべてのデータベース、viz. 99.40% (mnist), 98.72% と 93.24% (iitbbs), 99.38% と 99.22% (isi kolkata) において最先端の認識性能を達成した。
提案するOCRシステムは,PCA,SparsePCA,SparseLDAなどのスパースベース技術よりも,既存の変換(Wavelet,Slantlet,Stockwell)よりも優れていた。
関連論文リスト
- Towards Robust Real-Time Scene Text Detection: From Semantic to Instance
Representation Learning [19.856492291263102]
リアルタイムなシーンテキスト検出のための表現学習を提案する。
意味表現学習のために,GDSC(Global-dense semantic contrast)とトップダウンモデリング(TDM)を提案する。
提案したGDSCとTDMにより、推論中にパラメータや計算を導入することなく、エンコーダネットワークはより強力な表現を学習する。
提案手法は,全テキスト上で48.2FPS,MSRA-TD500で89.6%FPS,MSRA-TD500で36.9FPS,87.2%FPSを達成する。
論文 参考訳(メタデータ) (2023-08-14T15:14:37Z) - Keyword Spotting Simplified: A Segmentation-Free Approach using
Character Counting and CTC re-scoring [8.6134769826665]
セグメンテーションフリーなキーワードスポッティングの最近の進歩は、この問題をオブジェクト検出パラダイムとして扱う。
本稿では,クエリ情報を含む長方形領域を見つけるために,文書画像を効率的にスキャンするセグメンテーションフリーシステムを提案する。
論文 参考訳(メタデータ) (2023-08-07T12:11:04Z) - A Transformer Architecture for Online Gesture Recognition of
Mathematical Expressions [0.0]
トランスフォーマーアーキテクチャは、グリフストロークに対応するオンライン手書きジェスチャーから表現木を構築するためのエンドツーエンドモデルを提供する。
注意機構は、表現の基本的な構文をエンコードし、学習し、強制するためにうまく利用された。
エンコーダは初めて、目に見えないオンラインの時間的データトークンによって、無限に大きな語彙を形成します。
論文 参考訳(メタデータ) (2022-11-04T17:55:55Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Cascaded Asymmetric Local Pattern: A Novel Descriptor for Unconstrained
Facial Image Recognition and Retrieval [20.77994516381]
本稿では,顔画像の検索と認識のために,手作りの非対称局所パターン(CALP)を提案する。
提案手法は特徴長が最適であり,顔画像の環境および生理的変化下での精度が著しく向上したことを示す。
論文 参考訳(メタデータ) (2022-01-03T08:23:38Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Multi-Modal Zero-Shot Sign Language Recognition [51.07720650677784]
マルチモーダルなゼロショット手話認識モデルを提案する。
C3DモデルとともにTransformerベースのモデルを使用して手の検出と深い特徴抽出を行う。
意味空間は、視覚的特徴をクラスラベルの言語的な埋め込みにマッピングするために使用される。
論文 参考訳(メタデータ) (2021-09-02T09:10:39Z) - A Multi-Implicit Neural Representation for Fonts [79.6123184198301]
エッジやコーナーのようなフォント固有の不連続性は、ニューラルネットワークを使って表現することが難しい。
そこで我々は,フォントを文順に表現するためのtextitmulti-implicitsを導入する。
論文 参考訳(メタデータ) (2021-06-12T21:40:11Z) - Unsupervised low-rank representations for speech emotion recognition [78.38221758430244]
音声感情認識のための低ランク特徴表現の抽出に線形および非線形次元削減アルゴリズムを用いて検討する。
異なる分類法を用いて2つのデータベース上で学習した表現の音声認識(SER)結果を報告する。
論文 参考訳(メタデータ) (2021-04-14T18:30:58Z) - Blind Face Restoration via Deep Multi-scale Component Dictionaries [75.02640809505277]
劣化した観測の復元過程をガイドするディープフェイス辞書ネットワーク(DFDNet)を提案する。
DFDNetは高品質な画像から知覚的に重要な顔成分のディープ辞書を生成する。
コンポーネントAdaINは、入力機能と辞書機能の間のスタイルの多様性を取り除くために利用される。
論文 参考訳(メタデータ) (2020-08-02T07:02:07Z) - A Skip-connected Multi-column Network for Isolated Handwritten Bangla
Character and Digit recognition [12.551285203114723]
マルチスケールマルチカラムスキップ畳み込みニューラルネットワークを用いた非明示的特徴抽出手法を提案する。
本手法は,手書き文字と数字の4つの公開データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-27T13:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。