論文の概要: HTR-JAND: Handwritten Text Recognition with Joint Attention Network and Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2412.18524v1
- Date: Tue, 24 Dec 2024 16:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:54:52.404738
- Title: HTR-JAND: Handwritten Text Recognition with Joint Attention Network and Knowledge Distillation
- Title(参考訳): HTR-JAND:共同注意ネットワークと知識蒸留を用いた手書きテキスト認識
- Authors: Mohammed Hamdan, Abderrahmane Rahiche, Mohamed Cheriet,
- Abstract要約: 現在の手書き文字認識(HTR)システムは、歴史的文書の複雑さに苦慮している。
本稿では,高度特徴抽出と知識蒸留を組み合わせた効率的なHTRフレームワークであるHTR-JANDを紹介する。
文脈認識型T5後処理による認識精度の向上,特に歴史文書に有効である。
- 参考スコア(独自算出の注目度): 21.25786478579275
- License:
- Abstract: Despite significant advances in deep learning, current Handwritten Text Recognition (HTR) systems struggle with the inherent complexity of historical documents, including diverse writing styles, degraded text quality, and computational efficiency requirements across multiple languages and time periods. This paper introduces HTR-JAND (HTR-JAND: Handwritten Text Recognition with Joint Attention Network and Knowledge Distillation), an efficient HTR framework that combines advanced feature extraction with knowledge distillation. Our architecture incorporates three key components: (1) a CNN architecture integrating FullGatedConv2d layers with Squeeze-and-Excitation blocks for adaptive feature extraction, (2) a Combined Attention mechanism fusing Multi-Head Self-Attention with Proxima Attention for robust sequence modeling, and (3) a Knowledge Distillation framework enabling efficient model compression while preserving accuracy through curriculum-based training. The HTR-JAND framework implements a multi-stage training approach combining curriculum learning, synthetic data generation, and multi-task learning for cross-dataset knowledge transfer. We enhance recognition accuracy through context-aware T5 post-processing, particularly effective for historical documents. Comprehensive evaluations demonstrate HTR-JAND's effectiveness, achieving state-of-the-art Character Error Rates (CER) of 1.23\%, 1.02\%, and 2.02\% on IAM, RIMES, and Bentham datasets respectively. Our Student model achieves a 48\% parameter reduction (0.75M versus 1.5M parameters) while maintaining competitive performance through efficient knowledge transfer. Source code and pre-trained models are available at \href{https://github.com/DocumentRecognitionModels/HTR-JAND}{Github}.
- Abstract(参考訳): ディープラーニングの大幅な進歩にもかかわらず、現在の手書き文字認識(HTR)システムは、様々な書体スタイル、劣化したテキスト品質、複数の言語や期間にわたる計算効率の要求など、歴史的文書の本質的な複雑さに苦慮している。
本稿では,HTR-JAND(HTR-JAND: Handwriting Text Recognition with Joint Attention Network and Knowledge Distillation)を紹介する。
本アーキテクチャは,(1)適応的特徴抽出のためのSqueeze-and-ExcitationブロックとFullGatedConv2dレイヤを統合したCNNアーキテクチャ,(2)堅牢なシーケンスモデリングのためのプロキシ・アテンションとマルチヘッド・アテンションを融合したコンバインド・アテンション機構,(3)カリキュラムベースのトレーニングを通じて精度を保ちながら効率的なモデル圧縮を実現する知識蒸留フレームワーク,の3つのキーコンポーネントを備えている。
HTR-JANDフレームワークは、カリキュラム学習、合成データ生成、マルチタスク学習を組み合わせて、クロスデータセットの知識伝達のためのマルチステージトレーニングアプローチを実装している。
文脈認識型T5後処理による認識精度の向上,特に歴史文書に有効である。
総合的な評価は、HTR-JANDの有効性を示し、それぞれIAM、RIMES、Benthamデータセット上で1.23\%、1.02\%、2.02\%の最先端文字誤り率(CER)を達成する。
学生モデルは, 効率的な知識伝達による競争性能を維持しつつ, 48 % のパラメータ還元(0.75M 対 1.5M のパラメータ)を達成する。
ソースコードと事前訓練されたモデルは、 \href{https://github.com/DocumentRecognitionModels/HTR-JAND}{Github}で入手できる。
関連論文リスト
- HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Best Practices for a Handwritten Text Recognition System [8.334691351242753]
近年,手書き文字認識が急速に進歩している。
小さな前処理素子が変更されても、性能の非自明な偏差を検出することができる。
この研究は、手書き文字認識システムのトレーニングと優れたパフォーマンスを提供するための、シンプルで効果的な経験的実践を強調している。
論文 参考訳(メタデータ) (2024-04-17T13:00:05Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - StackMix and Blot Augmentations for Handwritten Text Recognition [0.0]
本稿では,ニューラルネットワークのアーキテクチャと,列車データ量を増やすための2つの方法について述べる。
StackMixは、印刷されたテキストに基づいて手書きテキストを編集するスタンドアロンタスクにも適用できる。
論文 参考訳(メタデータ) (2021-08-26T09:28:22Z) - EASTER: Efficient and Scalable Text Recognizer [0.0]
本稿では,機械印刷版と手書き版の両方で光学文字認識を行うための高能率かつスケーラブルなTExt認識器(EASTER)を提案する。
このモデルでは1次元畳み込み層を再帰なく利用し,データ量を大幅に削減した並列トレーニングを実現している。
また、オフライン手書きテキスト認識タスクにおいて、現在の最良の結果よりも改善点を示す。
論文 参考訳(メタデータ) (2020-08-18T10:26:03Z) - Efficient Crowd Counting via Structured Knowledge Transfer [122.30417437707759]
クラウドカウントはアプリケーション指向のタスクであり、その推論効率は現実世界のアプリケーションにとって不可欠である。
本稿では,学生ネットワークを軽量かつ高効率に構築する構造的知識伝達フレームワークを提案する。
我々のモデルはNvidia 1080 GPUで最低6.5$times$のスピードアップを取得し、最先端のパフォーマンスも達成しています。
論文 参考訳(メタデータ) (2020-03-23T08:05:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。