論文の概要: Multi-sequence Intermediate Conditioning for CTC-based ASR
- arxiv url: http://arxiv.org/abs/2204.00175v1
- Date: Fri, 1 Apr 2022 02:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:33:54.696723
- Title: Multi-sequence Intermediate Conditioning for CTC-based ASR
- Title(参考訳): ctcベースasrのマルチシーケンス中間条件付け
- Authors: Yusuke Fujita, Tatsuya Komatsu, Yusuke Kida
- Abstract要約: 日本語やマンダリンなど数千文字の言語では、これらすべての文字をモデル化するのはデータ不足のため問題となる。
自己条件接続型時間分類手法を用いて,文字と音節を明示的に相互作用するマルチタスク学習モデルを提案する。
日本語とマンダリンのデータセットを用いた実験結果から,提案手法は従来のマルチタスク方式と自己条件CTC方式よりも優れていた。
- 参考スコア(独自算出の注目度): 19.09510518419768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition (ASR) directly maps input speech to a
character sequence without using pronunciation lexica. However, in languages
with thousands of characters, such as Japanese and Mandarin, modeling all these
characters is problematic due to data scarcity. To alleviate the problem, we
propose a multi-task learning model with explicit interaction between
characters and syllables by utilizing Self-conditioned connectionist temporal
classification (CTC) technique. While the original Self-conditioned CTC
estimates character-level intermediate predictions by applying auxiliary CTC
losses to a set of intermediate layers, the proposed method additionally
estimates syllable-level intermediate predictions in another set of
intermediate layers. The character-level and syllable-level predictions are
alternately used as conditioning features to deal with mutual dependency
between characters and syllables. Experimental results on Japanese and Mandarin
datasets show that the proposed multi-sequence intermediate conditioning
outperformed the conventional multi-task-based and Self-conditioned CTC-based
methods.
- Abstract(参考訳): エンドツーエンドの自動音声認識(asr)は、発音語彙を使わずに入力音声を文字列に直接マッピングする。
しかし、日本語やマンダリンなど数千文字の言語では、データ不足のため、これらすべての文字をモデル化することが問題となっている。
この問題を軽減するために,自己条件接続型時間分類(CTC)技術を用いて,文字と音節間の明示的な相互作用を伴うマルチタスク学習モデルを提案する。
提案手法では,各中間層に補助的ctc損失を適用して文字レベルの中間予測を推定する一方で,他の中間層における音節レベルの中間予測を推定する。
文字レベルと音節レベルの予測は、文字と音節間の相互依存を扱う条件付けとして交互に使用される。
日本語とマンダリンのデータセットを用いた実験結果から,提案手法は従来のマルチタスク方式と自己条件CTC方式よりも優れていた。
関連論文リスト
- Disentangling Speakers in Multi-Talker Speech Recognition with Speaker-Aware CTC [73.23245793460275]
マルチトーカー音声認識は、重複する音声を遠ざけ、書き起こす際、独特な課題に直面している。
本稿では,MTASRにSOT(Serialized Output Training)を取り入れた場合の話者の絡み合いにおける接続性時間分類(CTC)の役割について検討する。
本研究では,ベイズリスクCTCフレームワークに基づく話者認識型CTC(SACTC)学習目標を提案する。
論文 参考訳(メタデータ) (2024-09-19T01:26:33Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Unimodal Aggregation for CTC-based Speech Recognition [7.6112706449833505]
同じテキストトークンに属する特徴フレームをセグメント化し統合するために、UMA(unimodal aggregate)を提案する。
UMAはより優れた特徴表現を学習し、シーケンス長を短縮し、認識エラーと計算複雑性を低減させる。
論文 参考訳(メタデータ) (2023-09-15T04:34:40Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - A Multi-level Supervised Contrastive Learning Framework for Low-Resource
Natural Language Inference [54.678516076366506]
自然言語推論(NLI)は、自然言語理解において、ますます重要な課題である。
本稿では,低リソースな自然言語推論のためのマルチSCLという,マルチレベルの教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-31T05:54:18Z) - InterAug: Augmenting Noisy Intermediate Predictions for CTC-based ASR [17.967459632339374]
コンディショニングのための拡張中間表現を用いたCTCベースのASRのための新しいトレーニング手法であるInterAugを提案する。
提案手法は、自己条件付きCTCの条件付けフレームワークを利用して、「ノイズ」中間予測を条件付けして頑健なモデルを訓練する。
削除,挿入,置換誤差をシミュレートした拡張実験において,訓練されたモデルが各誤差に対して堅牢性を得ることを確認した。
論文 参考訳(メタデータ) (2022-04-01T02:51:21Z) - Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular
Subword Units [19.668440671541546]
エンドツーエンドの自動音声認識では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。
接続型時間分類(CTC)に基づく階層型条件付きモデルを提案する。
LibriSpeech-100h, 960h, TEDLium2の実験結果から, 提案モデルが標準CTCモデルよりも改良されていることが示された。
論文 参考訳(メタデータ) (2021-10-08T13:15:58Z) - Intermediate Loss Regularization for CTC-based Speech Recognition [58.33721897180646]
本稿では,コネクショニスト時間分類(CTC)の目的に基づいて,自動音声認識(ASR)のための簡易かつ効率的な補助的損失関数を提案する。
提案手法は,WSJコーパスの単語誤り率(WER)9.9%,AISHELL-1コーパスの文字誤り率(CER)5.2%である。
論文 参考訳(メタデータ) (2021-02-05T15:01:03Z) - A comparison of self-supervised speech representations as input features
for unsupervised acoustic word embeddings [32.59716743279858]
私たちは、短い時間枠レベルで表現学習を見ます。
最近のアプローチには、自己監視型予測符号化および対応オートエンコーダ(CAE)モデルが含まれる。
コントラスト予測符号化(CPC)、オートレグレッシブ予測符号化、CAEなどのフレームレベルの特徴を従来のMFCCと比較します。
論文 参考訳(メタデータ) (2020-12-14T10:17:25Z) - Reducing Spelling Inconsistencies in Code-Switching ASR using
Contextualized CTC Loss [5.707652271634435]
本研究では,スペル合成の促進を目的とした文脈接続性時間分類(CCTC)の損失を提案する。
CCTC損失は、モデルの推定経路からコンテキスト基底真理を得るため、フレームレベルのアライメントを必要としない。
CSと単言語コーパスの両方において,通常のCTC損失をトレーニングしたモデルと比較して,ASR性能は一貫して改善した。
論文 参考訳(メタデータ) (2020-05-16T09:36:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。