論文の概要: Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach
- arxiv url: http://arxiv.org/abs/2308.08806v4
- Date: Fri, 29 Dec 2023 11:06:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:59:26.348766
- Title: Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach
- Title(参考訳): テキスト認識のための自己蒸留正規化コネクショニスト時間的分類損失:単純かつ効果的なアプローチ
- Authors: Ziyin Zhang, Ning Lu, Minghui Liao, Yongshuai Huang, Cheng Li, Min
Wang and Wei Peng
- Abstract要約: 損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
- 参考スコア(独自算出の注目度): 14.69981874614434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text recognition methods are gaining rapid development. Some advanced
techniques, e.g., powerful modules, language models, and un- and
semi-supervised learning schemes, consecutively push the performance on public
benchmarks forward. However, the problem of how to better optimize a text
recognition model from the perspective of loss functions is largely overlooked.
CTC-based methods, widely used in practice due to their good balance between
performance and inference speed, still grapple with accuracy degradation. This
is because CTC loss emphasizes the optimization of the entire sequence target
while neglecting to learn individual characters. We propose a self-distillation
scheme for CTC-based model to address this issue. It incorporates a framewise
regularization term in CTC loss to emphasize individual supervision, and
leverages the maximizing-a-posteriori of latent alignment to solve the
inconsistency problem that arises in distillation between CTC-based models. We
refer to the regularized CTC loss as Distillation Connectionist Temporal
Classification (DCTC) loss. DCTC loss is module-free, requiring no extra
parameters, longer inference lag, or additional training data or phases.
Extensive experiments on public benchmarks demonstrate that DCTC can boost text
recognition model accuracy by up to 2.6%, without any of these drawbacks.
- Abstract(参考訳): テキスト認識手法は急速に発展しつつある。
強力なモジュール、言語モデル、un-および半教師なしの学習スキームなど、いくつかの高度なテクニックは、公開ベンチマークのパフォーマンスを継続的に押し上げる。
しかし、損失関数の観点から、テキスト認識モデルをいかに最適化するかという問題は概ね見過ごされている。
CTCに基づく手法は、性能と推論速度のバランスが良く、精度の低下に苦慮しているため、実際に広く用いられている。
CTC損失は、個々の文字を学習することを無視しながら、シーケンスターゲット全体の最適化を強調するためである。
本稿では,CTCモデルを用いた自己蒸留方式を提案する。
フレームワイズ正規化項をctc損失に取り入れ、個々の監督を強調し、潜在アライメントの最大化後アライメントを活用し、ctcベースのモデル間の蒸留で生じる不整合問題を解決する。
正規化ctc損失を蒸留接続主義時間的分類 (dctc) 損失と呼ぶ。
DCTCの損失はモジュールフリーで、余分なパラメータや推論遅延、追加のトレーニングデータやフェーズを必要としない。
公開ベンチマークの大規模な実験は、DCTCがこれらの欠点を全くなく、テキスト認識モデルの精度を最大2.6%向上させることができることを示した。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Pre-training for Speech Translation: CTC Meets Optimal Transport [29.807861658249923]
本研究では,コネクショニスト時間分類(CTC)の損失が設計によるモダリティギャップを減少させることを示す。
本稿では,CTCと最適輸送を組み合わせた新しい事前学習手法を提案する。
本手法では,2つのエンコーダ,1つは音響入力用,もう1つはテキスト入力用で構成され,ワッサーシュタイン空間において互いに近接した表現を生成する。
論文 参考訳(メタデータ) (2023-01-27T14:03:09Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - Alignment Knowledge Distillation for Online Streaming Attention-based
Speech Recognition [46.69852287267763]
本稿では,オンライン・ストリーミング・アテンション・ベースのエンコーダ・デコーダ(AED)自動音声認識(ASR)システムの効率的なトレーニング手法について述べる。
提案手法は認識エラーとエミッション遅延を同時に低減する。
最高のMoChAシステムはRNNトランスデューサ(RNN-T)と同等の性能を示します。
論文 参考訳(メタデータ) (2021-02-28T08:17:38Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z) - GTC: Guided Training of CTC Towards Efficient and Accurate Scene Text
Recognition [27.38969404322089]
本稿では,CTCモデルのより優れたアライメントと特徴表現を,より強力な注意指導から学習するCTCモデルの指導的トレーニングを提案する。
ガイド付きトレーニングの利点により、CTCモデルは、通常のシーンテキストと不規則なシーンテキストの両方に対して、堅牢で正確な予測を達成できる。
CTCデコーダの可能性をさらに活用するために,グラフ畳み込みネットワーク(GCN)を提案し,抽出した特徴の局所的相関を学習した。
論文 参考訳(メタデータ) (2020-02-04T13:26:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。