論文の概要: BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model
- arxiv url: http://arxiv.org/abs/2210.16663v2
- Date: Thu, 20 Apr 2023 01:23:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 17:07:37.648874
- Title: BERT Meets CTC: New Formulation of End-to-End Speech Recognition with
Pre-trained Masked Language Model
- Title(参考訳): bert meets ctc: マスク言語モデルを用いたエンドツーエンド音声認識の新しい定式化
- Authors: Yosuke Higuchi, Brian Yan, Siddhant Arora, Tetsuji Ogawa, Tetsunori
Kobayashi, Shinji Watanabe
- Abstract要約: BERT-CTCはエンドツーエンド音声認識の新しい定式化である。
BERTコンテキスト埋め込みによって得られる明示的な出力依存性を通じて言語知識を組み込む。
BERT-CTCは、話し方や言語の変化にまたがる従来のアプローチよりも改善されている。
- 参考スコア(独自算出の注目度): 40.16332045057132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents BERT-CTC, a novel formulation of end-to-end speech
recognition that adapts BERT for connectionist temporal classification (CTC).
Our formulation relaxes the conditional independence assumptions used in
conventional CTC and incorporates linguistic knowledge through the explicit
output dependency obtained by BERT contextual embedding. BERT-CTC attends to
the full contexts of the input and hypothesized output sequences via the
self-attention mechanism. This mechanism encourages a model to learn
inner/inter-dependencies between the audio and token representations while
maintaining CTC's training efficiency. During inference, BERT-CTC combines a
mask-predict algorithm with CTC decoding, which iteratively refines an output
sequence. The experimental results reveal that BERT-CTC improves over
conventional approaches across variations in speaking styles and languages.
Finally, we show that the semantic representations in BERT-CTC are beneficial
towards downstream spoken language understanding tasks.
- Abstract(参考訳): 本稿では、接続性時間分類(CTC)にBERTを適用した、エンドツーエンド音声認識の新しい定式化であるBERT-CTCを提案する。
我々の定式化は、従来のCTCで用いられる条件独立仮定を緩和し、BERTの文脈埋め込みによって得られる明示的な出力依存性を通して言語知識を取り入れる。
BERT-CTCは、自己保持機構を介して入力および仮説化された出力シーケンスの完全なコンテキストに対応する。
このメカニズムは、CTCのトレーニング効率を維持しながら、音声とトークンの表現の内/間依存性を学習することをモデルに促す。
推論中、BERT-CTCはマスク予測アルゴリズムとCTCデコードを組み合わせて出力シーケンスを反復的に洗練する。
実験結果から,BERT-CTCは話し方や言語の変化にまたがる従来の手法よりも改善されていることが明らかとなった。
最後に、BERT-CTCのセマンティック表現は、下流言語理解タスクに有益であることを示す。
関連論文リスト
- CR-CTC: Consistency regularization on CTC for improved speech recognition [18.996929774821822]
Connectionist Temporal Classification (CTC) は自動音声認識(ASR)の手法として広く使われている。
しかし、CTCとアテンションベースのエンコーダデコーダ(CTC/AED)を組み合わせたトランスデューサやシステムと比較すると、認識性能に劣ることが多い。
本稿では,入力音声メルスペクトルの異なる拡張ビューから得られた2つのCTC分布間の整合性を実現するConsistency-Regularized CTC (CR-CTC)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:56:07Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Bridging the Gaps of Both Modality and Language: Synchronous Bilingual
CTC for Speech Translation and Speech Recognition [46.41096278421193]
BiL-CTC+は、ソース言語とターゲット言語とのギャップを埋める。
また,音声認識性能も大幅に向上した。
論文 参考訳(メタデータ) (2023-09-21T16:28:42Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Distilling the Knowledge of BERT for CTC-based ASR [38.345330002791606]
CTCに基づくASRのためのBERTの知識を抽出することを提案する。
CTCベースのASRは、トレーニング中にBERTの知識を学び、テスト中にBERTを使用しない。
提案手法は,推論速度を犠牲にすることなく,CTCに基づくASRの性能を向上することを示す。
論文 参考訳(メタデータ) (2022-09-05T16:08:35Z) - A Study on Effects of Implicit and Explicit Language Model Information
for DBLSTM-CTC Based Handwriting Recognition [51.36957172200015]
本稿では,DBLSTM-CTCを用いた手書き文字認識における暗黙的および明示的言語モデル情報の効果について検討する。
DBLSTMをトレーニングするために100万行のトレーニング文を使用しても、明示的な言語モデルを使用することは有用です。
論文 参考訳(メタデータ) (2020-07-31T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。