論文の概要: CNN-BiLSTM model for English Handwriting Recognition: Comprehensive
Evaluation on the IAM Dataset
- arxiv url: http://arxiv.org/abs/2307.00664v1
- Date: Sun, 2 Jul 2023 20:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 14:44:54.685984
- Title: CNN-BiLSTM model for English Handwriting Recognition: Comprehensive
Evaluation on the IAM Dataset
- Title(参考訳): 英語手書き文字認識のためのCNN-BiLSTMモデル:IAMデータセットの総合評価
- Authors: Firat Kizilirmak and Berrin Yanikoglu
- Abstract要約: オフラインの英語手書き文字認識のためのCNN-BiLSTMシステムを提案する。
CNN-BiLSTMネットワークとCTC層を用いて, 3.59%のCERと9.44%のWERを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a CNN-BiLSTM system for the problem of offline English handwriting
recognition, with extensive evaluations on the public IAM dataset, including
the effects of model size, data augmentation and the lexicon. Our best model
achieves 3.59\% CER and 9.44\% WER using CNN-BiLSTM network with CTC layer.
Test time augmentation with rotation and shear transformations applied to the
input image, is proposed to increase recognition of difficult cases and found
to reduce the word error rate by 2.5\% points. We also conduct an error
analysis of our proposed method on IAM dataset, show hard cases of handwriting
images and explore samples with erroneous labels. We provide our source code as
public-domain, to foster further research to encourage scientific
reproducibility.
- Abstract(参考訳): 本稿では,CNN-BiLSTMによるオフライン英語手書き文字認識システムについて,モデルサイズ,データ拡張,語彙の影響など,パブリックIAMデータセットに対する広範な評価を行った。
最良モデルはctc層を有するcnn-bilstmネットワークを用いて3.59\% cerと9.44\% werを実現する。
入力画像に印加された回転およびせん断変換によるテスト時間増大は,難解な症例の認識を高めるために提案され,単語誤り率を2.5 % 削減した。
また,提案手法をiamデータセット上で誤り解析し,手書き画像のハードケースを示し,誤ったラベルを用いてサンプルを探索する。
我々のソースコードをパブリックドメインとして提供し、さらなる研究を奨励し、科学的再現性を促進する。
関連論文リスト
- Understanding and Improving CNNs with Complex Structure Tensor: A Biometrics Study [47.03015281370405]
本研究では,コンパクトな配向特徴を持つ複合構造を用いることで,グレースケール入力のみを使用する場合と比較して,識別精度が向上することを示す。
このことは、哺乳類の視界で見られる戦略であるCNNにおける配向機能の事前利用が、それらの制限を緩和するだけでなく、その説明可能性や細い自転車との関連性を高めることを示唆している。
論文 参考訳(メタデータ) (2024-04-24T02:51:13Z) - Offline Writer Identification Using Convolutional Neural Network
Activation Features [6.589323210821262]
畳み込みニューラルネットワーク(CNN)は、最近、大規模な画像分類のための最先端のツールとなっている。
本研究では,CNNのアクティベーション機能を,ライター識別のためのローカル記述子として用いることを提案する。
ICDAR 2013ベンチマークデータベースとCVLデータセットの2つの公開データセットに対して,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-02-26T21:16:14Z) - Convolutional Neural Networks for Sentiment Analysis on Weibo Data: A
Natural Language Processing Approach [0.228438857884398]
本研究では,Weiboの119,988ツイートのデータセット上で,畳み込みニューラルネットワーク(CNN)を用いた感情分析の複雑な課題に対処する。
CNNに基づくモデルを用いて,特徴抽出に単語埋め込みを活用し,感情分類を行う訓練を行った。
このモデルは、テストセットで平均約0.73のマクロ平均F1スコアを達成し、正、中、負の感情でバランスの取れた性能を示した。
論文 参考訳(メタデータ) (2023-07-13T03:02:56Z) - One-Shot Learning for Periocular Recognition: Exploring the Effect of
Domain Adaptation and Data Bias on Deep Representations [59.17685450892182]
広範に使用されているCNNモデルにおける深部表現の挙動をワンショット近視認識のための極端データ不足下で検討する。
我々は、バイオメトリックデータセットで訓練されたネットワークを数百万の画像で活用し、最先端の結果を改善した。
SIFTのような従来のアルゴリズムは、限られたデータでCNNより優れている。
論文 参考訳(メタデータ) (2023-07-11T09:10:16Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Incorporating Semi-Supervised and Positive-Unlabeled Learning for
Boosting Full Reference Image Quality Assessment [73.61888777504377]
フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準で測定することにより、歪み画像の視覚的品質を評価する。
ラベルなしデータは、画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を高めることを奨励する。
本稿では, 半教師付き, 正の未ラベル学習(PU)を用いて, ラベルなしデータを活用し, オフレーヤの悪影響を軽減することを提案する。
論文 参考訳(メタデータ) (2022-04-19T09:10:06Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - Heterogeneous Graph Neural Networks for Multi-label Text Classification [5.290920289670573]
マルチラベルテキスト分類(MLTC)は自然言語処理における魅力的な課題である。
異種グラフのノードとしてトークンやラベルをモデル化することでMLTC問題を解決するための異種グラフ畳み込みネットワークモデルを提案する。
本手法を3つの実世界データセットで評価し, 実験結果から, 大幅な改善を達成し, 最新の比較手法を上回った。
論文 参考訳(メタデータ) (2021-03-26T17:33:31Z) - Rethinking and Designing a High-performing Automatic License Plate
Recognition Approach [16.66787965777127]
そこで我々は,VSNetと呼ばれる新しい自動ナンバープレート認識(ALPR)手法を提案する。
VSNetには2つのCNN、すなわちライセンスプレート検出用のVertexNetとライセンスプレート認識用のSCR-Netが含まれている。
実験結果から,提案したVSNetは,エラー率の相対的改善率が50%以上向上し,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-11-30T16:03:57Z) - Collaborative Boundary-aware Context Encoding Networks for Error Map
Prediction [65.44752447868626]
本稿では,AEP-Net と呼ばれる協調的コンテキスト符号化ネットワークを提案する。
具体的には、画像とマスクのより優れた特徴融合のための協調的な特徴変換分岐と、エラー領域の正確な局所化を提案する。
AEP-Netはエラー予測タスクの平均DSCが0.8358,0.8164であり、ピアソン相関係数が0.9873である。
論文 参考訳(メタデータ) (2020-06-25T12:42:01Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。