論文の概要: GraDeT-HTR: A Resource-Efficient Bengali Handwritten Text Recognition System utilizing Grapheme-based Tokenizer and Decoder-only Transformer
- arxiv url: http://arxiv.org/abs/2509.18081v1
- Date: Mon, 22 Sep 2025 17:56:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.553406
- Title: GraDeT-HTR: A Resource-Efficient Bengali Handwritten Text Recognition System utilizing Grapheme-based Tokenizer and Decoder-only Transformer
- Title(参考訳): GraDeT-HTR:Grapheme-based TokenizerとDecoder-only Transformerを利用した資源効率の良いベンガル手書き文字認識システム
- Authors: Md. Mahmudul Hasan, Ahmed Nesar Tahsin Choudhury, Mahmudul Hasan, Md. Mosaddek Khan,
- Abstract要約: 世界で6番目に話されている言語であるにもかかわらず、ベンガル語のための手書き文字認識システムはいまだに未発達のままである。
本稿では,GraDeT-HTRについて述べる。これは,Grapheme対応のデコーダのみのトランスフォーマアーキテクチャに基づく,リソース効率の良いベンガル手書きテキスト認識システムである。
- 参考スコア(独自算出の注目度): 2.2550831568419456
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Despite Bengali being the sixth most spoken language in the world, handwritten text recognition (HTR) systems for Bengali remain severely underdeveloped. The complexity of Bengali script--featuring conjuncts, diacritics, and highly variable handwriting styles--combined with a scarcity of annotated datasets makes this task particularly challenging. We present GraDeT-HTR, a resource-efficient Bengali handwritten text recognition system based on a Grapheme-aware Decoder-only Transformer architecture. To address the unique challenges of Bengali script, we augment the performance of a decoder-only transformer by integrating a grapheme-based tokenizer and demonstrate that it significantly improves recognition accuracy compared to conventional subword tokenizers. Our model is pretrained on large-scale synthetic data and fine-tuned on real human-annotated samples, achieving state-of-the-art performance on multiple benchmark datasets.
- Abstract(参考訳): ベンガル語は世界で6番目に話されている言語であるにもかかわらず、ベンガル語のための手書き文字認識システム(HTR)はいまだに未発達である。
Bengaliスクリプトの複雑さ - 接続、ダイアクリティカル、高度に可変な手書きスタイル - アノテーション付きデータセットの不足と組み合わせることで、この作業は特に困難になる。
本稿では,GraDeT-HTRについて述べる。これは,Grapheme対応のデコーダのみのトランスフォーマアーキテクチャに基づく,リソース効率の良いベンガル手書きテキスト認識システムである。
ベンガル文字の独特な課題に対処するため、グラファイムベースのトークン化器を統合することでデコーダのみの変換器の性能を向上し、従来のサブワードトークン化器と比較して認識精度を著しく向上させることを示した。
提案モデルは,大規模合成データに基づいて事前訓練を行い,実際の人手による注釈付きサンプルを微調整し,複数のベンチマークデータセット上で最先端のパフォーマンスを実現する。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Enhancing Indic Handwritten Text Recognition Using Global Semantic
Information [36.01828106385858]
Indicの手書きテキストを認識するために,グローバルな意味情報を抽出するために,エンコーダ・デコーダフレームワークのセマンティックモジュールを使用する。
提案するフレームワークは、10のIndic言語で書かれた手書きテキストに対して最先端の結果を得る。
論文 参考訳(メタデータ) (2022-12-15T12:53:26Z) - Transformer based Urdu Handwritten Text Optical Character Reader [0.0]
ウルドゥー語の文字は、そのカール的な性質と、その相対的な位置に基づく文字の形状の変化のため、非常に難しい。
複雑な特徴を理解し、様々な手書きスタイルで一般化できるモデルを提案する必要がある。
本研究では,変換器を用いたUrduハンドライトテキスト抽出モデルを提案する。
論文 参考訳(メタデータ) (2022-06-09T15:43:35Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - SmartPatch: Improving Handwritten Word Imitation with Patch
Discriminators [67.54204685189255]
本稿では,現在の最先端手法の性能を向上させる新手法であるSmartPatchを提案する。
我々は、よく知られたパッチ損失と、平行訓練された手書きテキスト認識システムから収集された情報を組み合わせる。
これにより、より強化された局所識別器が実現し、より現実的で高品質な手書き文字が生成される。
論文 参考訳(メタデータ) (2021-05-21T18:34:21Z) - One-shot Compositional Data Generation for Low Resource Handwritten Text
Recognition [10.473427493876422]
低リソース手書きテキスト認識は、わずかな注釈付きデータと非常に限られた言語情報のために難しい問題です。
本稿では,ベイズプログラム学習に基づくデータ生成手法を用いてこの問題に対処する。
大量の注釈付き画像を必要とする従来型の手法とは対照的に,各記号のサンプルを1つだけ,所望のアルファベットから生成することが可能である。
論文 参考訳(メタデータ) (2021-05-11T18:53:01Z) - Text Compression-aided Transformer Encoding [77.16960983003271]
本稿では,トランスフォーマーのエンコーディングを強化するために,明示的で暗黙的なテキスト圧縮手法を提案する。
バックボーン情報、つまり入力テキストのgistは、特に焦点を当てていません。
評価の結果,提案した明示的かつ暗黙的なテキスト圧縮手法は,強いベースラインと比較して結果を改善することがわかった。
論文 参考訳(メタデータ) (2021-02-11T11:28:39Z) - A Large Multi-Target Dataset of Common Bengali Handwritten Graphemes [1.009810782568186]
そこで本稿では, 単語を線形に分割するラベリング手法を提案する。
データセットには、1295のユニークなベンガルグラフエムの411kのキュレートされたサンプルが含まれている。
このデータセットは、Kaggleの公開手書きグラフ分類チャレンジの一部として、オープンソースとして公開されている。
論文 参考訳(メタデータ) (2020-10-01T01:51:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。