論文の概要: HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Text Recognition
- arxiv url: http://arxiv.org/abs/2512.05021v1
- Date: Thu, 04 Dec 2025 17:35:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:46.299773
- Title: HTR-ConvText: Leveraging Convolution and Textual Information for Handwritten Text Recognition
- Title(参考訳): HTR-ConvText:手書き文字認識における畳み込みとテキスト情報の活用
- Authors: Pham Thach Thanh Truc, Dang Hoai Nam, Huynh Tong Dang Khoa, Vo Nguyen Le Duy,
- Abstract要約: 既存のアプローチはこれらの問題に部分的に対処するが、大規模な合成データなしでは一般化に苦慮することが多い。
我々は,グローバルなコンテキスト依存を保ちながら,細粒度でストロークレベルの局所的特徴を捉えるモデルであるHTR-ConvTextを提案する。
次に,グローバルコンテキストと階層構造内の局所的特徴を組み合わせたハイブリッドアーキテクチャであるConvTextエンコーダを紹介する。
- 参考スコア(独自算出の注目度): 4.5311655360445515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Handwritten Text Recognition remains challenging due to the limited data, high writing style variance, and scripts with complex diacritics. Existing approaches, though partially address these issues, often struggle to generalize without massive synthetic data. To address these challenges, we propose HTR-ConvText, a model designed to capture fine-grained, stroke-level local features while preserving global contextual dependencies. In the feature extraction stage, we integrate a residual Convolutional Neural Network backbone with a MobileViT with Positional Encoding block. This enables the model to both capture structural patterns and learn subtle writing details. We then introduce the ConvText encoder, a hybrid architecture combining global context and local features within a hierarchical structure that reduces sequence length for improved efficiency. Additionally, an auxiliary module injects textual context to mitigate the weakness of Connectionist Temporal Classification. Evaluations on IAM, READ2016, LAM and HANDS-VNOnDB demonstrate that our approach achieves improved performance and better generalization compared to existing methods, especially in scenarios with limited training samples and high handwriting diversity.
- Abstract(参考訳): 手書きテキスト認識は、限られたデータ、高い書き込みスタイルのばらつき、複雑なダイアクリティカルなスクリプトのため、依然として困難である。
既存のアプローチはこれらの問題に部分的に対処するが、大規模な合成データなしでは一般化に苦慮することが多い。
これらの課題に対処するため,グローバルなコンテキスト依存を保ちながら,細粒度でストロークレベルの局所的特徴を捉えるモデルであるHTR-ConvTextを提案する。
特徴抽出の段階では、残差畳み込みニューラルネットワークのバックボーンと、位置エンコーディングブロックを備えたMobileViTを統合する。
これにより、モデルが構造パターンをキャプチャし、微妙な記述の詳細を学ぶことができる。
次に、グローバルコンテキストと局所的特徴を組み合わせたハイブリッドアーキテクチャであるConvTextエンコーダを導入し、効率を向上させるためにシーケンス長を削減する。
さらに、補助モジュールはテキストコンテキストを注入し、コネクショニストの時間分類の弱点を軽減する。
IAM, READ2016, LAM, HANDS-VNOnDB の評価は,本手法が既存の手法,特に限られたトレーニングサンプルと高い手書きの多様性を持つシナリオにおいて, 性能の向上と一般化を実現していることを示す。
関連論文リスト
- BoundRL: Efficient Structured Text Segmentation through Reinforced Boundary Generation [26.825801831400003]
BoundRLは長い構造化テキストに対してトークンレベルのテキストセグメンテーションとラベル予測を行う。
セグメントごとに完全なコンテンツを生成する代わりに、開始トークンのシーケンスだけを生成する。
オリジナルテキスト内にこれらのトークンを配置することで、完全な内容を再構築する。
論文 参考訳(メタデータ) (2025-10-23T02:56:10Z) - GlyphMastero: A Glyph Encoder for High-Fidelity Scene Text Editing [23.64662356622401]
GlyphMasteroという特殊なグリフエンコーダは、ストロークレベルの精度でテキストを生成するために、潜時拡散モデルを導出するために設計されている。
本手法は,現状のシーンテキスト編集ベースラインよりも文精度が18.02%向上した。
論文 参考訳(メタデータ) (2025-05-08T03:11:58Z) - PICASO: Permutation-Invariant Context Composition with State Space Models [98.91198288025117]
State Space Models (SSM) は、コンテキストのデータベースを固定次元の状態にマッピング可能にすることで、有望なソリューションを提供する。
本研究では,SSM力学から導かれる単純な数学的関係を,生のコンテキストトークンの連結効果を効率的に近似する複数の状態に構成する。
我々は,WikiText と MSMARCO をゼロショットと微調整の両方で評価し,平均5.4倍のスピードアップを楽しみながら最強の演奏ベースラインと一致できることを示す。
論文 参考訳(メタデータ) (2025-02-24T19:48:00Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。