論文の概要: Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes
- arxiv url: http://arxiv.org/abs/2110.05909v2
- Date: Wed, 13 Oct 2021 06:43:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 11:35:26.959634
- Title: Rescoring Sequence-to-Sequence Models for Text Line Recognition with
CTC-Prefixes
- Title(参考訳): CTC-Prefixesを用いたテキスト行認識のための系列列列モデル
- Authors: Christoph Wick and Jochen Z\"ollner and Tobias Gr\"uning
- Abstract要約: 我々は,S2Sデコード中にCTC-Prefix-Scoreを使用することを提案する。
ビームサーチ中、CTC信頼行列に従って無効となるパスがペナル化される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In contrast to Connectionist Temporal Classification (CTC) approaches,
Sequence-To-Sequence (S2S) models for Handwritten Text Recognition (HTR) suffer
from errors such as skipped or repeated words which often occur at the end of a
sequence. In this paper, to combine the best of both approaches, we propose to
use the CTC-Prefix-Score during S2S decoding. Hereby, during beam search, paths
that are invalid according to the CTC confidence matrix are penalised. Our
network architecture is composed of a Convolutional Neural Network (CNN) as
visual backbone, bidirectional Long-Short-Term-Memory-Cells (LSTMs) as encoder,
and a decoder which is a Transformer with inserted mutual attention layers. The
CTC confidences are computed on the encoder while the Transformer is only used
for character-wise S2S decoding. We evaluate this setup on three HTR data sets:
IAM, Rimes, and StAZH. On IAM, we achieve a competitive Character Error Rate
(CER) of 2.95% when pretraining our model on synthetic data and including a
character-based language model for contemporary English. Compared to other
state-of-the-art approaches, our model requires about 10-20 times less
parameters. Access our shared implementations via this link to GitHub:
https://github.com/Planet-AI-GmbH/tfaip-hybrid-ctc-s2s.
- Abstract(参考訳): 接続主義時相分類(ctc)のアプローチとは対照的に、手書きテキスト認識(htr)のためのsequence-to-sequence(s2s)モデルは、シーケンスの最後にしばしば発生するスキップや繰り返しといったエラーに苦しむ。
本稿では,S2S復号時にCTC-Prefix-Scoreを用いることを提案する。
これにより、ビーム探索中に、CTC信頼行列に従って無効となるパスがペナルティ化される。
我々のネットワークアーキテクチャは、視覚バックボーンとしての畳み込みニューラルネットワーク(CNN)、エンコーダとしての双方向長短メモリセル(LSTM)、相互注意層を挿入したトランスフォーマーであるデコーダで構成される。
CTC信頼度はエンコーダ上で計算され、トランスフォーマーは文字単位のS2Sデコードにのみ使用される。
IAM, Rimes, StAZHの3つのHTRデータセット上で, この設定を評価する。
IAMでは、合成データに基づく事前学習を行い、現代英語の文字ベース言語モデルを含む場合、2.95%の競合的文字誤り率(CER)を達成する。
他の最先端手法と比較して、我々のモデルはパラメーターを10~20倍少なくする必要がある。
GitHubへのこのリンクを通じて、共有実装にアクセスしてください。
関連論文リスト
- Automatic speech recognition for the Nepali language using CNN, bidirectional LSTM and ResNet [0.0]
本稿ではネパール語音声をテキストに書き起こす自動音声認識(ASR)のためのエンドツーエンドディープラーニングモデルを提案する。
モデルはOpenSLR(audio, text)データセットでトレーニングされ、テストされた。
文字誤り率(CER)は17.06パーセントに達している。
論文 参考訳(メタデータ) (2024-06-25T12:14:01Z) - 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - GEC-DePenD: Non-Autoregressive Grammatical Error Correction with
Decoupled Permutation and Decoding [52.14832976759585]
文法的誤り訂正(GEC)は、通常自己回帰的なシーケンス・ツー・シーケンスモデルで解決される重要なNLPタスクである。
本稿では, アーキテクチャを置換ネットワークに分離する, GEC に対する非自己回帰的アプローチを提案する。
GECの既知の非自己回帰手法よりもネットワークが向上することを示す。
論文 参考訳(メタデータ) (2023-11-14T14:24:36Z) - A CTC Alignment-based Non-autoregressive Transformer for End-to-end
Automatic Speech Recognition [26.79184118279807]
CTCアライメントに基づく一段非自己回帰変換器(CASS-NAT)をエンドツーエンドASRに適用する。
自己回帰変換器(AT)への単語埋め込みは、エンコーダ出力から抽出されたトークンレベルの音響埋め込み(TAE)で代用される。
我々は,CASS-NAT が様々な ASR タスクにおいて AT に近い WER を持ち,24 倍の推論速度を提供することを発見した。
論文 参考訳(メタデータ) (2023-04-15T18:34:29Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Recurrence-free unconstrained handwritten text recognition using gated
fully convolutional network [2.277447144331876]
制約のない手書きテキスト認識は、ほとんどのドキュメント分析タスクの主要なステップです。
LSTM細胞を使用する別の方法の1つは、畳み込み層を多用して長期記憶損失を補うことである。
我々は、よく知られたCNN+LSTMアーキテクチャの再発のない代替であるGated Fully Convolutional Networkアーキテクチャを紹介します。
論文 参考訳(メタデータ) (2020-12-09T10:30:13Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。