論文の概要: LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher
Insights for Bangla Handwriting Recognition
- arxiv url: http://arxiv.org/abs/2205.11420v1
- Date: Mon, 23 May 2022 16:04:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:11:08.698373
- Title: LILA-BOTI : Leveraging Isolated Letter Accumulations By Ordering Teacher
Insights for Bangla Handwriting Recognition
- Title(参考訳): LILA-BOTI : バングラ文字認識のための教師指導による孤立した文字蓄積の活用
- Authors: Md. Ismail Hossain, Mohammed Rakib, Sabbir Mollah, Fuad Rahman, Nabeel
Mohammed
- Abstract要約: 複雑さは、多数のアルファベットの存在、いくつかのダイアクリティカルな形式の存在、複雑な結合の出現から生じる。
本稿では,LILA-BOTIとLILA-BOTIの2つの知識蒸留手法を紹介する。
The Convolutional Recurrent Neural Network (CRNN) students model are trained with the dark knowledge obtained from a printed isolated character recognition teacher model。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word-level handwritten optical character recognition (OCR) remains a
challenge for morphologically rich languages like Bangla. The complexity arises
from the existence of a large number of alphabets, the presence of several
diacritic forms, and the appearance of complex conjuncts. The difficulty is
exacerbated by the fact that some graphemes occur infrequently but remain
indispensable, so addressing the class imbalance is required for satisfactory
results. This paper addresses this issue by introducing two knowledge
distillation methods: Leveraging Isolated Letter Accumulations By Ordering
Teacher Insights (LILA-BOTI) and Super Teacher LILA-BOTI. In both cases, a
Convolutional Recurrent Neural Network (CRNN) student model is trained with the
dark knowledge gained from a printed isolated character recognition teacher
model. We conducted inter-dataset testing on \emph{BN-HTRd} and
\emph{BanglaWriting} as our evaluation protocol, thus setting up a challenging
problem where the results would better reflect the performance on unseen data.
Our evaluations achieved up to a 3.5% increase in the F1-Macro score for the
minor classes and up to 4.5% increase in our overall word recognition rate when
compared with the base model (No KD) and conventional KD.
- Abstract(参考訳): 単語レベルの手書き文字認識(OCR)は、バングラのような形態的にリッチな言語では依然として課題である。
この複雑さは、多数のアルファベットの存在、いくつかのダイアクリティカルな形式の存在、複雑な結節の出現から生じる。
難易度は、いくつかのグラフエムが頻繁に発生するが必須であり続けるという事実によって悪化するため、満足な結果を得るためにクラス不均衡に対処する必要がある。
本稿では,教師洞察(lila-boti)とスーパー教師lila-boti(lila-boti)の2つの知識蒸留法を紹介する。
いずれの場合も、印刷された孤立文字認識教師モデルから得られた暗黒知識を用いて畳み込みリカレントニューラルネットワーク(crnn)学生モデルを訓練する。
評価プロトコルとして, \emph{BN-HTRd} と \emph{BanglaWriting} のデータセット間テストを実施し, 結果が未確認データの性能をよりよく反映できるという課題を提起した。
基本モデル(No KD)と従来のKDと比較すると,F1-Macroスコアは3.5%増加し,単語認識率も4.5%向上した。
関連論文リスト
- BanglaNet: Bangla Handwritten Character Recognition using Ensembling of
Convolutional Neural Network [0.0]
本稿では,複数の畳み込みニューラルネットワーク(CNN)のアンサンブルに基づく分類モデルを提案する。
Inception、ResNet、DenseNetといった最先端CNNモデルのアイデアに基づいた3つの異なるモデルが、拡張入力と非拡張入力の両方でトレーニングされている。
CMATERdb(英語版)、BanglaLekha-Isolated(英語版)、Ekush(英語版)の3つのベンチマークによる厳密な実験は、かなりの認識精度を示した。
論文 参考訳(メタデータ) (2024-01-16T01:08:19Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - BN-DRISHTI: Bangla Document Recognition through Instance-level
Segmentation of Handwritten Text Images [0.0]
本稿では,ハフ変換とアフィン変換を併用した深層学習に基づくオブジェクト検出フレームワーク(YOLO)を提案する。
BN-HTRdデータセットの拡張版として、786個の全ページ手書きBangla文書画像を示す。
Fスコアは行数99.97%,単語セグメンテーション98%であった。
論文 参考訳(メタデータ) (2023-05-31T04:08:57Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Learning to Decompose Visual Features with Latent Textual Prompts [140.2117637223449]
視覚言語モデルを改善するために,Decomposed Feature Prompting (DeFo)を提案する。
我々の実証研究は、視覚言語モデルを改善する上でDeFoが重要であることを示している。
論文 参考訳(メタデータ) (2022-10-09T15:40:13Z) - A Few Shot Multi-Representation Approach for N-gram Spotting in
Historical Manuscripts [1.2930503923129213]
少数の文字列(N-gram)のスポッティングのための数ショット学習パラダイムを提案する。
我々は,重要なn-gramの認識が語彙依存の軽減につながることを示した。
論文 参考訳(メタデータ) (2022-09-21T15:35:02Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - Approaches to Improving Recognition of Underrepresented Named Entities
in Hybrid ASR Systems [24.84273681286825]
我々は、ハイブリッドASRシステムにおいて、未表現な名前付きエンティティ(NE)の認識を改善するための一連の補完的アプローチを提案する。
まず,ハイブリッドASRにおける音声モデルの必要性を低減できるグラデミック・レキシコンについて検討する。
次に、頻度の低い単語を処理するための文字ベースの特徴を持つニューラル言語モデル(LM)の影響について検討する。
論文 参考訳(メタデータ) (2020-05-18T14:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。