論文の概要: Understanding Cross-Language Transfer Improvements in Low-Resource HTR: The Role of Sequence Modeling
- arxiv url: http://arxiv.org/abs/2605.05900v1
- Date: Thu, 07 May 2026 09:11:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.654502
- Title: Understanding Cross-Language Transfer Improvements in Low-Resource HTR: The Role of Sequence Modeling
- Title(参考訳): 低リソースHTRにおけるクロスランゲージ転送改善の理解:シーケンスモデリングの役割
- Authors: Sana Al-azzawi, Chang Liu, Nudrat Habib, Elisa Barney, Marcus Liwicki,
- Abstract要約: アラビア文字言語のための手書きテキスト認識は、低リソース条件下での言語間共同学習の恩恵を受ける。
我々は,CNNのみのモデルとCTC復号とCRNNのモデルを比較した。
CNNのみのモデルでは、制限や不安定な改善が見られたが、CRNNモデルはマルチスクリプトトレーニングにおいて、より良い性能が得られる。
- 参考スコア(独自算出の注目度): 6.743937267541855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Text Recognition (HTR) for Arabic-script languages benefits from cross-language joint training under low-resource conditions, particularly when using CRNN-based models that combine convolutional encoders with sequence modeling. However, it remains unclear whether these improvements are better explained by shared visual representations or sequence-level dependencies. In this work, we conduct a controlled architectural study of line-level Arabic-script HTR, comparing CNN-only models with CTC decoding and CRNN models under identical single-script and multi-script training regimes. Experiments are performed on Arabic (KHATT), Urdu (NUST-UHWR), and Persian (PHTD) datasets under low-resource settings (K in {100, 500, 1000}). Our results show a clear divergence in transfer behavior: while CNN-only models exhibit limited or unstable improvements, CRNN models achieve better performance under multi-script training, particularly in the most data-constrained regimes. Focusing on transfer improvements (delta CER) rather than absolute performance, we find that cross-language improvements are associated with sequence-level modeling, while sharing visual representations learned by the CNN encoder, corresponding to similarities in character shapes across scripts, alone appears to be insufficient. This finding suggests that contextual modeling plays an important role in enabling effective transfer in low-resource scenarios, and that similar behavior may extend to other low-resource language settings.
- Abstract(参考訳): アラビア文字言語のための手書き文字認識(HTR)は、低リソース条件下での言語間共同訓練の恩恵を受け、特に畳み込みエンコーダとシーケンスモデリングを組み合わせたCRNNベースのモデルを使用する場合である。
しかし、これらの改善が共有された視覚表現やシーケンスレベルの依存関係によってよりうまく説明されるかどうかは不明だ。
本研究では,CNNのみのモデルとCTC復号化モデルとCRNNモデルを比較し,ラインレベルのアラビア文字HTRの制御アーキテクチャ研究を行う。
アラビア語(KHATT)、ウルドゥー語(NUST-UHWR)、ペルシャ語(PHTD)のデータセットを低リソース設定(K in {100, 500, 1000})で実験する。
CNNのみのモデルでは制限や不安定な改善が見られたが、CRNNモデルはマルチスクリプトトレーニングにおいて、特にデータ制約の多いシステムにおいて、より優れたパフォーマンスを実現している。
CNNエンコーダで学習した視覚的表現は、スクリプト間の文字形状の類似性に応じて、単独では不十分であるように思われる。
この発見は、コンテキストモデリングが低リソースのシナリオにおいて効果的な転送を可能にする上で重要な役割を担っていることを示唆し、同様の振る舞いが他の低リソースの言語設定にまで拡張される可能性があることを示唆している。
関連論文リスト
- Revisiting N-Gram Models: Their Impact in Modern Neural Networks for Handwritten Text Recognition [4.059708117119894]
本研究は,言語モデル,特にn-gramモデルが,手書き認識の分野における最先端のディープラーニングアーキテクチャの性能に引き続き寄与するかどうかを論じる。
我々は、明示的なn-gram言語モデルを統合することなく、2つの著名なニューラルネットワークアーキテクチャ、PyLaiaとDANを評価した。
その結果,文字やサブワードの n-gram モデルの導入は,すべてのデータセット上での ATR モデルの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-04-30T07:37:48Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - Distributionally Robust Recurrent Decoders with Random Network
Distillation [93.10261573696788]
本稿では,自動回帰言語モデルが推論中にOODコンテキストを無視できるように,ランダムネットワーク蒸留を用いたOOD検出に基づく手法を提案する。
提案手法をGRUアーキテクチャに適用し,複数の言語モデリング(LM)データセットの改善を実証する。
論文 参考訳(メタデータ) (2021-10-25T19:26:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。