論文の概要: GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition
- arxiv url: http://arxiv.org/abs/2002.01276v1
- Date: Tue, 4 Feb 2020 13:26:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 02:59:54.594026
- Title: GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition
- Title(参考訳): GTC:CTCの効率的かつ正確なテキスト認識に向けた指導的訓練
- Authors: Wenyang Hu, Xiaocong Cai, Jun Hou, Shuai Yi, Zhiping Lin
- Abstract要約: 本稿では,CTCモデルのより優れたアライメントと特徴表現を,より強力な注意指導から学習するCTCモデルの指導的トレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、通常のシーンテキストと不規則なシーンテキストの両方に対して、堅牢で正確な予測を達成できる。
CTCデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(GCN)を提案し,抽出した特徴の局所的相関を学習した。
- 参考スコア(独自算出の注目度): 27.38969404322089
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Connectionist Temporal Classification (CTC) and attention mechanism are two
main approaches used in recent scene text recognition works. Compared with
attention-based methods, CTC decoder has a much shorter inference time, yet a
lower accuracy. To design an efficient and effective model, we propose the
guided training of CTC (GTC), where CTC model learns a better alignment and
feature representations from a more powerful attentional guidance. With the
benefit of guided training, CTC model achieves robust and accurate prediction
for both regular and irregular scene text while maintaining a fast inference
speed. Moreover, to further leverage the potential of CTC decoder, a graph
convolutional network (GCN) is proposed to learn the local correlations of
extracted features. Extensive experiments on standard benchmarks demonstrate
that our end-to-end model achieves a new state-of-the-art for regular and
irregular scene text recognition and needs 6 times shorter inference time than
attentionbased methods.
- Abstract(参考訳): コネクショニスト時間分類(ctc)と注意機構は、近年のテキスト認識における2つの主要なアプローチである。
注意に基づく手法と比較して、CTCデコーダはより短い推論時間を持つが、精度は低い。
効率的かつ効果的なモデルを設計するために、より強力な注意指導からCTCモデルがより優れたアライメントと特徴表現を学習するCTC(GTC)のガイド付きトレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、高速な推論速度を維持しながら、正規および不規則なシーンテキストの堅牢かつ正確な予測を実現する。
さらに,ctcデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(gcn)を提案し,抽出された特徴の局所相関について検討した。
標準ベンチマークに関する広範囲な実験により,本モデルが正規および不規則なテキスト認識のための新たな最先端技術を実現し,注意に基づく手法の6倍の推論時間を必要とすることが示された。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Improving CTC-AED model with integrated-CTC and auxiliary loss
regularization [6.214966465876013]
自動音声認識(ASR)において、コネクショニスト時間的分類とアテンションベースエンコーダデコーダ(AED)共同訓練が広く適用されている。
本稿では,2つの融合法,すなわち直接ロジット加算(DAL)と最大確率保存(PMP)を用いる。
我々は,CTCの寸法に適合するように注意結果を適応的にアフィン変換することで,次元整合性を実現する。
論文 参考訳(メタデータ) (2023-08-15T03:31:47Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Turning a CLIP Model into a Scene Text Detector [56.86413150091367]
近年,視覚言語モデルに基づく事前学習手法がテキスト検出の分野で有効な進歩を遂げている。
本稿では,CLIPモデルを事前学習せずにテキスト検出に利用することを目的とした,TCMと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T06:06:12Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Distilling the Knowledge of BERT for CTC-based ASR [38.345330002791606]
CTCに基づくASRのためのBERTの知識を抽出することを提案する。
CTCベースのASRは、トレーニング中にBERTの知識を学び、テスト中にBERTを使用しない。
提案手法は,推論速度を犠牲にすることなく,CTCに基づくASRの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-09-05T16:08:35Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Focus on the present: a regularization method for the ASR source-target
attention layer [45.73441417132897]
本稿では,最先端のエンドツーエンド音声認識モデルにおいて,ソースターゲットの注目度を診断する新しい手法を提案する。
提案手法は,CTCとソースターゲットの双方が同一のエンコーダ表現に作用しているという事実に基づいている。
我々は、ソースターゲットのアテンションヘッドが、現在のトークンよりも先にいくつかのトークンを予測できることを発見した。
論文 参考訳(メタデータ) (2020-11-02T18:56:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。