Fugu-MT 論文翻訳(概要): Understanding Cross-Language Transfer Improvements in Low-Resource HTR: The Role of Sequence Modeling

論文の概要: Understanding Cross-Language Transfer Improvements in Low-Resource HTR: The Role of Sequence Modeling

arxiv url: http://arxiv.org/abs/2605.05900v1
Date: Thu, 07 May 2026 09:11:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-08 22:27:11.654502
Title: Understanding Cross-Language Transfer Improvements in Low-Resource HTR: The Role of Sequence Modeling
Title（参考訳）: 低リソースHTRにおけるクロスランゲージ転送改善の理解:シーケンスモデリングの役割
Authors: Sana Al-azzawi, Chang Liu, Nudrat Habib, Elisa Barney, Marcus Liwicki,
Abstract要約: アラビア文字言語のための手書きテキスト認識は、低リソース条件下での言語間共同学習の恩恵を受ける。我々は,CNNのみのモデルとCTC復号とCRNNのモデルを比較した。 CNNのみのモデルでは、制限や不安定な改善が見られたが、CRNNモデルはマルチスクリプトトレーニングにおいて、より良い性能が得られる。
参考スコア（独自算出の注目度）: 6.743937267541855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Handwritten Text Recognition (HTR) for Arabic-script languages benefits from cross-language joint training under low-resource conditions, particularly when using CRNN-based models that combine convolutional encoders with sequence modeling. However, it remains unclear whether these improvements are better explained by shared visual representations or sequence-level dependencies. In this work, we conduct a controlled architectural study of line-level Arabic-script HTR, comparing CNN-only models with CTC decoding and CRNN models under identical single-script and multi-script training regimes. Experiments are performed on Arabic (KHATT), Urdu (NUST-UHWR), and Persian (PHTD) datasets under low-resource settings (K in {100, 500, 1000}). Our results show a clear divergence in transfer behavior: while CNN-only models exhibit limited or unstable improvements, CRNN models achieve better performance under multi-script training, particularly in the most data-constrained regimes. Focusing on transfer improvements (delta CER) rather than absolute performance, we find that cross-language improvements are associated with sequence-level modeling, while sharing visual representations learned by the CNN encoder, corresponding to similarities in character shapes across scripts, alone appears to be insufficient. This finding suggests that contextual modeling plays an important role in enabling effective transfer in low-resource scenarios, and that similar behavior may extend to other low-resource language settings.
Abstract（参考訳）: アラビア文字言語のための手書き文字認識(HTR)は、低リソース条件下での言語間共同訓練の恩恵を受け、特に畳み込みエンコーダとシーケンスモデリングを組み合わせたCRNNベースのモデルを使用する場合である。しかし、これらの改善が共有された視覚表現やシーケンスレベルの依存関係によってよりうまく説明されるかどうかは不明だ。本研究では,CNNのみのモデルとCTC復号化モデルとCRNNモデルを比較し,ラインレベルのアラビア文字HTRの制御アーキテクチャ研究を行う。アラビア語(KHATT)、ウルドゥー語(NUST-UHWR)、ペルシャ語(PHTD)のデータセットを低リソース設定(K in {100, 500, 1000})で実験する。 CNNのみのモデルでは制限や不安定な改善が見られたが、CRNNモデルはマルチスクリプトトレーニングにおいて、特にデータ制約の多いシステムにおいて、より優れたパフォーマンスを実現している。 CNNエンコーダで学習した視覚的表現は、スクリプト間の文字形状の類似性に応じて、単独では不十分であるように思われる。この発見は、コンテキストモデリングが低リソースのシナリオにおいて効果的な転送を可能にする上で重要な役割を担っていることを示唆し、同様の振る舞いが他の低リソースの言語設定にまで拡張される可能性があることを示唆している。

論文の概要: Understanding Cross-Language Transfer Improvements in Low-Resource HTR: The Role of Sequence Modeling

関連論文リスト