論文の概要: AttentionHTR: Handwritten Text Recognition Based on Attention
Encoder-Decoder Networks
- arxiv url: http://arxiv.org/abs/2201.09390v1
- Date: Sun, 23 Jan 2022 22:48:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-25 14:32:21.864007
- Title: AttentionHTR: Handwritten Text Recognition Based on Attention
Encoder-Decoder Networks
- Title(参考訳): AttentionHTR: Attention Encoder-Decoder Networks を用いた手書き文字認識
- Authors: Dmitrijs Kass and Ekta Vats
- Abstract要約: 本研究は,手書き単語認識のための注目に基づくシーケンス・ツー・シーケンス・モデルを提案する。
シーンテキストイメージに事前トレーニングされたモデルを、手書き認識モデルのカスタマイズに向けた出発点として活用する。
提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットで実証的に評価されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work proposes an attention-based sequence-to-sequence model for
handwritten word recognition and explores transfer learning for data-efficient
training of HTR systems. To overcome training data scarcity, this work
leverages models pre-trained on scene text images as a starting point towards
tailoring the handwriting recognition models. ResNet feature extraction and
bidirectional LSTM-based sequence modeling stages together form an encoder. The
prediction stage consists of a decoder and a content-based attention mechanism.
The effectiveness of the proposed end-to-end HTR system has been empirically
evaluated on a novel multi-writer dataset Imgur5K and the IAM dataset. The
experimental results evaluate the performance of the HTR framework, further
supported by an in-depth analysis of the error cases. Source code and
pre-trained models are available at https://github.com/dmitrijsk/AttentionHTR.
- Abstract(参考訳): 本研究は,手書き単語認識のための注意に基づくシーケンス・ツー・シーケンスモデルを提案し,htrシステムのデータ効率トレーニングのための転送学習について検討する。
学習データの不足を克服するために,テキスト画像に事前学習したモデルを手書き認識モデルの調整のための出発点として活用する。
ResNetの特徴抽出と双方向LSTMに基づくシーケンスモデリングはエンコーダを構成する。
予測段階は、デコーダとコンテンツベースの注意機構から構成される。
提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットImgur5KとIAMデータセットで実証的に評価されている。
実験結果はhtrフレームワークの性能を評価し、さらにエラーケースの詳細な分析によってサポートした。
ソースコードと事前訓練されたモデルはhttps://github.com/dmitrijsk/AttentionHTR.comで入手できる。
関連論文リスト
- Efficient Sample-Specific Encoder Perturbations [37.84914870036184]
凍結基礎モデルのエンコーダ出力のサンプル・バイ・サンプル摂動を求めるために,小さなプロキシ・ネットワークが利用できることを示す。
その結果,COMET と WER で評価した性能は一貫した改善が見られた。
論文 参考訳(メタデータ) (2024-05-01T08:55:16Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Uncovering the Handwritten Text in the Margins: End-to-end Handwritten
Text Detection and Recognition [0.840835093659811]
本研究は,手書きペラリアの自動検出と認識のためのエンドツーエンドフレームワークを提案する。
データ拡張と転送学習を使用して、トレーニングデータの不足を克服する。
このフレームワークの有効性はスウェーデンのウプサラ大学図書館で発見された初期の書籍コレクションのデータから実証的に評価されている。
論文 参考訳(メタデータ) (2023-03-10T14:00:53Z) - ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical
Handwritten Documents [3.9688530261646653]
歴史的文書におけるキーワードスポッティング(KWS)は、デジタル化されたコレクションを最初に探究するための重要なツールである。
マスク・アンド・予測パラダイムに基づく視覚変換器をベースとしたマスク付き自動エンコーダモデルST-KeySを提案する。
微調整段階において、事前訓練されたエンコーダは、入力画像から特徴埋め込みを改善するために微調整されたサイムズニューラルネットワークモデルに統合される。
論文 参考訳(メタデータ) (2023-03-06T13:39:41Z) - Adaptive Convolutional Dictionary Network for CT Metal Artifact
Reduction [62.691996239590125]
本稿では,金属人工物削減のための適応畳み込み辞書ネットワーク(ACDNet)を提案する。
我々のACDNetは、トレーニングデータを介して、アーティファクトフリーCT画像の事前を自動で学習し、入力されたCT画像ごとに表現カーネルを適応的に調整することができる。
本手法は,モデルに基づく手法の明確な解釈可能性を継承し,学習に基づく手法の強力な表現能力を維持する。
論文 参考訳(メタデータ) (2022-05-16T06:49:36Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Automatic Feature Extraction for Heartbeat Anomaly Detection [7.054093620465401]
医療における異常検出の応用を目的とした、生音声の心拍音の自動抽出に着目する。
1次元非コーダ畳み込みエンコーダとウェーブネットデコーダで構成したオートエンコーダの助けを借りて,特徴を学習する。
論文 参考訳(メタデータ) (2021-02-24T13:55:24Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。