論文の概要: Handwritten Text Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2502.08417v1
- Date: Wed, 12 Feb 2025 13:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:57.657470
- Title: Handwritten Text Recognition: A Survey
- Title(参考訳): 手書き文字認識:調査
- Authors: Carlos Garrido-Munoz, Antonio Rios-Vila, Jorge Calvo-Zaragoza,
- Abstract要約: 手書き文字認識(HTR)は,パターン認識や機械学習において重要な分野となっている。
HTRの複雑さは、手書きの高可変性にあるため、堅牢な認識システムの開発が困難である。
本研究では、HTRモデルの進化を調査し、初期のアプローチから最新の最先端のニューラルモデルへの進化をトレースする。
- 参考スコア(独自算出の注目度): 9.121437356699358
- License:
- Abstract: Handwritten Text Recognition (HTR) has become an essential field within pattern recognition and machine learning, with applications spanning historical document preservation to modern data entry and accessibility solutions. The complexity of HTR lies in the high variability of handwriting, which makes it challenging to develop robust recognition systems. This survey examines the evolution of HTR models, tracing their progression from early heuristic-based approaches to contemporary state-of-the-art neural models, which leverage deep learning techniques. The scope of the field has also expanded, with models initially capable of recognizing only word-level content progressing to recent end-to-end document-level approaches. Our paper categorizes existing work into two primary levels of recognition: (1) \emph{up to line-level}, encompassing word and line recognition, and (2) \emph{beyond line-level}, addressing paragraph- and document-level challenges. We provide a unified framework that examines research methodologies, recent advances in benchmarking, key datasets in the field, and a discussion of the results reported in the literature. Finally, we identify pressing research challenges and outline promising future directions, aiming to equip researchers and practitioners with a roadmap for advancing the field.
- Abstract(参考訳): 手書き文字認識(HTR)は、歴史的文書保存から現代のデータ入力およびアクセシビリティーソリューションまで、パターン認識と機械学習において重要な分野となっている。
HTRの複雑さは、手書きの高可変性にあるため、堅牢な認識システムの開発が困難である。
本研究は,HTRモデルの進化を考察し,HTRモデルの初期ヒューリスティックなアプローチから,深層学習技術を活用した現代的最先端のニューラルモデルへの進化を追究する。
フィールドの範囲も拡大され、初期のモデルは最近のエンドツーエンドの文書レベルのアプローチに進展するワードレベルのコンテンツのみを認識することができるようになった。
本稿では,(1) 単語と行の認識を包含する「emph{up to line-level」,(2) 段落と文書レベルの課題に対処する「emph{beyond line-level」の2つの主要なレベルに分類する。
我々は,研究手法,最近のベンチマークの進歩,分野における重要なデータセット,文献で報告された結果について検討する統一的なフレームワークを提供する。
最後に,現在進行中の研究課題を特定し,将来的な方向性を概説し,現場を前進させるロードマップを研究者や実践者に提供することを目的とする。
関連論文リスト
- PLATTER: A Page-Level Handwritten Text Recognition System for Indic Scripts [20.394597266150534]
我々はPage-Level hAndwriTTen TExt Recognition(PLATTER)のエンドツーエンドフレームワークを提案する。
第2に,言語に依存しないHTDモデルの性能測定にPLATTERを用いることを実証する。
最後に、厳密にキュレートされたページレベルのインデックス手書きOCRデータセットである、手書きのIndic Scripts (CHIPS) のコーパスをリリースする。
論文 参考訳(メタデータ) (2025-02-10T05:50:26Z) - Learning based Ge'ez character handwritten recognition [7.699119649521884]
文化的・歴史的に重要な古代エチオピア文字であるゲエズは、筆跡認識研究においてほとんど無視されてきた。
畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory(LSTM)ネットワークを用いた手書き文字認識システムを開発した。
まず、CNNが個々の文字の認識を訓練し、LSTMに基づく単語認識システムのための特徴抽出器として機能する。
論文 参考訳(メタデータ) (2024-11-20T14:22:15Z) - Deep Learning-Based Object Pose Estimation: A Comprehensive Survey [73.74933379151419]
ディープラーニングに基づくオブジェクトポーズ推定の最近の進歩について論じる。
また、複数の入力データモダリティ、出力ポーズの自由度、オブジェクト特性、下流タスクについても調査した。
論文 参考訳(メタデータ) (2024-05-13T14:44:22Z) - End-to-end Task-oriented Dialogue: A Survey of Tasks, Methods, and
Future Directions [65.64674377591852]
エンドツーエンドのタスク指向対話(EToD)は、モジュールトレーニングなしでエンドツーエンドで応答を直接生成できる。
ディープニューラルネットワークの進歩、特に大きな事前訓練モデルの使用の成功は、EToD研究に大きな進歩をもたらした。
論文 参考訳(メタデータ) (2023-11-15T14:50:16Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - The LAM Dataset: A Novel Benchmark for Line-Level Handwritten Text
Recognition [40.20527158935902]
手書き文字認識(HTR)は、コンピュータビジョンと自然言語処理の交差点におけるオープンな問題である。
イタリア古写本のラインレベルの大規模なHTRデータセットであるLudocio Antonio Muratoriデータセットを60年以上にわたって1人の著者が編集した。
論文 参考訳(メタデータ) (2022-08-16T11:44:16Z) - Continuous Offline Handwriting Recognition using Deep Learning Models [0.0]
手書き文字認識は、自動文書画像解析の分野に大きな関心を持つオープンな問題である。
我々は,畳み込みニューラルネットワーク(CNN)とシーケンス・ツー・シーケンス(seq2seq)という,2種類のディープラーニングアーキテクチャの統合に基づく新しい認識モデルを提案する。
提案した新たなモデルでは,他の確立された方法論と競合する結果が得られる。
論文 参考訳(メタデータ) (2021-12-26T07:31:03Z) - Deep Learning Schema-based Event Extraction: Literature Review and
Current Trends [60.29289298349322]
ディープラーニングに基づくイベント抽出技術が研究ホットスポットとなっている。
本稿では,ディープラーニングモデルに焦点をあて,最先端のアプローチを見直し,そのギャップを埋める。
論文 参考訳(メタデータ) (2021-07-05T16:32:45Z) - Positioning yourself in the maze of Neural Text Generation: A
Task-Agnostic Survey [54.34370423151014]
本稿では, ストーリーテリング, 要約, 翻訳など, 世代ごとのタスクインパクトをリレーする手法の構成要素について検討する。
本稿では,学習パラダイム,事前学習,モデリングアプローチ,復号化,各分野における重要な課題について,命令的手法の抽象化を提案する。
論文 参考訳(メタデータ) (2020-10-14T17:54:42Z) - A Survey of Knowledge-Enhanced Text Generation [81.24633231919137]
テキスト生成の目標は、機械を人間の言語で表現できるようにすることである。
入力テキストを出力テキストにマッピングすることを学ぶことで、目的を達成するために、様々なニューラルエンコーダデコーダモデルが提案されている。
この問題に対処するために、研究者は入力テキスト以外の様々な種類の知識を生成モデルに組み込むことを検討してきた。
論文 参考訳(メタデータ) (2020-10-09T06:46:46Z) - A Survey on Text Classification: From Shallow to Deep Learning [83.47804123133719]
過去10年は、ディープラーニングが前例のない成功を収めたために、この分野の研究が急増している。
本稿では,1961年から2021年までの最先端のアプローチを見直し,そのギャップを埋める。
特徴抽出と分類に使用されるテキストとモデルに基づいて,テキスト分類のための分類を作成する。
論文 参考訳(メタデータ) (2020-08-02T00:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。