論文の概要: SoftCTC $\unicode{x2013}$ Semi-Supervised Learning for Text Recognition
using Soft Pseudo-Labels
- arxiv url: http://arxiv.org/abs/2212.02135v1
- Date: Mon, 5 Dec 2022 10:13:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 15:54:52.369485
- Title: SoftCTC $\unicode{x2013}$ Semi-Supervised Learning for Text Recognition
using Soft Pseudo-Labels
- Title(参考訳): softctc $\unicode{x2013}$ ソフト擬似ラベルを用いたテキスト認識のための半教師付き学習
- Authors: Martin Ki\v{s}\v{s}, Michal Hradi\v{s}, Karel Bene\v{s}, Petr Buchal,
Michal Kula
- Abstract要約: 本稿では,光学的文字認識や自動認識などの半教師付きシーケンスについて検討する。
本稿では,新たな損失フィルタリング機能であるxx2013$ SoftCTCを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores semi-supervised training for sequence tasks, such as
Optical Character Recognition or Automatic Speech Recognition. We propose a
novel loss function $\unicode{x2013}$ SoftCTC $\unicode{x2013}$ which is an
extension of CTC allowing to consider multiple transcription variants at the
same time. This allows to omit the confidence based filtering step which is
otherwise a crucial component of pseudo-labeling approaches to semi-supervised
learning. We demonstrate the effectiveness of our method on a challenging
handwriting recognition task and conclude that SoftCTC matches the performance
of a finely-tuned filtering based pipeline. We also evaluated SoftCTC in terms
of computational efficiency, concluding that it is significantly more efficient
than a na\"ive CTC-based approach for training on multiple transcription
variants, and we make our GPU implementation public.
- Abstract(参考訳): 本稿では,光学的文字認識や自動音声認識などのシーケンスタスクに対する半教師付きトレーニングについて検討する。
我々は、ctcの拡張である新しい損失関数$\unicode{x2013}$ softctc $\unicode{x2013}$を提案する。
これにより、半教師付き学習への擬似ラベルアプローチの重要な構成要素である信頼に基づくフィルタリングステップを省略できる。
本手法が手書き文字認識の課題に対して有効であることを示すとともに,精巧なフィルタに基づくパイプラインの性能とSoftCTCが一致することを結論する。
また、計算効率の観点からSoftCTCを評価し、複数の書き起こし変種をトレーニングするためのna\\ive CTCベースのアプローチよりもはるかに効率が良いことを結論付け、GPU実装を一般公開する。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Self-distillation Regularized Connectionist Temporal Classification Loss
for Text Recognition: A Simple Yet Effective Approach [14.69981874614434]
損失関数の観点から、テキスト認識モデルの最適化方法を示す。
CTCに基づく手法は、性能と推論速度のバランスが良いため、実際は広く用いられているが、それでも精度は低下している。
本稿では,CTCモデルを用いた自己蒸留方式を提案し,この問題に対処する。
論文 参考訳(メタデータ) (2023-08-17T06:32:57Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model [40.16332045057132]
BERT-CTCはエンドツーエンド音声認識の新しい定式化である。
BERTコンテキスト埋め込みによって得られる明示的な出力依存性を通じて言語知識を組み込む。
BERT-CTCは、話し方や言語の変化にまたがる従来のアプローチよりも改善されている。
論文 参考訳(メタデータ) (2022-10-29T18:19:44Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Implicit Feature Alignment: Learn to Convert Text Recognizer to Text
Spotter [38.4211220941874]
我々はIFA(Implicit Feature Alignment)と呼ばれるシンプルでエレガントで効果的なパラダイムを提案する。
IFAは、現在のテキスト認識器に容易に統合でき、その結果、IFA推論と呼ばれる新しい推論機構が生まれる。
IFAは、エンドツーエンドの文書認識タスクにおいて最先端のパフォーマンスを達成することを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-10T17:06:28Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。