論文の概要: Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition
- arxiv url: http://arxiv.org/abs/2506.00447v1
- Date: Sat, 31 May 2025 08:03:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.078791
- Title: Performance Analysis of Few-Shot Learning Approaches for Bangla Handwritten Character and Digit Recognition
- Title(参考訳): Bangla手書き文字とDigit認識のためのFew-Shot学習手法の性能解析
- Authors: Mehedi Ahamed, Radib Bin Kabir, Tawsif Tashwar Dipto, Mueeze Al Mushabbir, Sabbir Ahmed, Md. Hasanul Kabir,
- Abstract要約: 本研究は,Bangla手書き文字と数字の認識における数ショット学習手法の性能について検討する。
本稿では,手書き文字と数字の認識精度を向上させるために設計されたハイブリッドネットワークであるSynergiProtoNetを紹介する。
- 参考スコア(独自算出の注目度): 0.9895793818721335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the performance of few-shot learning (FSL) approaches in recognizing Bangla handwritten characters and numerals using limited labeled data. It demonstrates the applicability of these methods to scripts with intricate and complex structures, where dataset scarcity is a common challenge. Given the complexity of Bangla script, we hypothesize that models performing well on these characters can generalize effectively to languages of similar or lower structural complexity. To this end, we introduce SynergiProtoNet, a hybrid network designed to improve the recognition accuracy of handwritten characters and digits. The model integrates advanced clustering techniques with a robust embedding framework to capture fine-grained details and contextual nuances. It leverages multi-level (both high- and low-level) feature extraction within a prototypical learning framework. We rigorously benchmark SynergiProtoNet against several state-of-the-art few-shot learning models: BD-CSPN, Prototypical Network, Relation Network, Matching Network, and SimpleShot, across diverse evaluation settings including Monolingual Intra-Dataset Evaluation, Monolingual Inter-Dataset Evaluation, Cross-Lingual Transfer, and Split Digit Testing. Experimental results show that SynergiProtoNet consistently outperforms existing methods, establishing a new benchmark in few-shot learning for handwritten character and digit recognition. The code is available on GitHub: https://github.com/MehediAhamed/SynergiProtoNet.
- Abstract(参考訳): 本研究では,限られたラベル付きデータを用いて,Bangla手書き文字と数字の認識におけるFSL手法の性能について検討した。
データセットの不足が一般的な課題である複雑な構造と複雑な構造を持つスクリプトに対して、これらのメソッドが適用可能であることを示す。
バングラ文字の複雑さを考えると、これらの文字でうまく機能するモデルは、類似またはより低い構造複雑性を持つ言語に効果的に一般化できるという仮説を立てる。
そこで本研究では,手書き文字と数字の認識精度の向上を目的としたハイブリッドネットワークであるSynergiProtoNetを紹介する。
このモデルは、高度なクラスタリング技術と堅牢な埋め込みフレームワークを統合して、きめ細かい詳細とコンテキストのニュアンスをキャプチャする。
マルチレベル(ハイレベルとローレベルの両方)の機能抽出を、プロトタイプ学習フレームワーク内で活用する。
BD-CSPN、Prototypeal Network、Relation Network、Matching Network、SimpleShotといった、モノリンガルなデータセット評価、モノリンガルなデータセット評価、モノリンガルなデータセット評価、クロスリンガル転送、分割ディジットテストといったさまざまな評価設定に対して、SynergiProtoNetを厳格にベンチマークします。
実験結果から,SynergiProtoNetは既存の手法を一貫して上回り,手書き文字認識と数字認識のための数ショット学習の新たなベンチマークを確立した。
コードはGitHubで入手できる。 https://github.com/MehediAhamed/SynergiProtoNet。
関連論文リスト
- General Detection-based Text Line Recognition [15.761142324480165]
我々は、テキスト行認識に対する一般的な検出に基づくアプローチを、印刷(OCR)や手書き(HTR)として導入する。
我々の手法は、自己回帰復号に依存する最先端のHTR手法とは全く異なるパラダイムに基づいている。
我々は、CASIA v2データセット上での中国語スクリプト認識と、BorgおよびCopialeデータセット上での暗号認識の最先端性能を改善した。
論文 参考訳(メタデータ) (2024-09-25T17:05:55Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - Task Grouping for Multilingual Text Recognition [28.036892501896983]
Gumbel-Softmax を用いたタスクグループ化と代入モジュールを用いた多言語テキスト認識の自動手法を提案する。
MLT19の実験は、全てのタスクを結合し、タスクグループ化/分離のより良い構成を達成する全てのタスクを分離する中間的な基盤が存在するという我々の仮説に証拠を与えている。
論文 参考訳(メタデータ) (2022-10-13T23:54:23Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Synbols: Probing Learning Algorithms with Synthetic Datasets [112.45883250213272]
Synbolsは、低解像度画像にレンダリングされた潜在機能のリッチな構成で、新しいデータセットを高速に生成するツールである。
ツールの高レベルインターフェースは、潜在機能で新しいディストリビューションを高速に生成するための言語を提供する。
Synbolsの汎用性を示すために,各種学習環境における標準学習アルゴリズムの限界と欠陥を識別するために,本手法を用いる。
論文 参考訳(メタデータ) (2020-09-14T13:03:27Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - A Skip-connected Multi-column Network for Isolated Handwritten Bangla
Character and Digit recognition [12.551285203114723]
マルチスケールマルチカラムスキップ畳み込みニューラルネットワークを用いた非明示的特徴抽出手法を提案する。
本手法は,手書き文字と数字の4つの公開データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-27T13:18:58Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。