論文の概要: Exploring CTC Based End-to-End Techniques for Myanmar Speech Recognition
- arxiv url: http://arxiv.org/abs/2105.06253v2
- Date: Fri, 14 May 2021 05:29:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:57:22.004038
- Title: Exploring CTC Based End-to-End Techniques for Myanmar Speech Recognition
- Title(参考訳): ミャンマー音声認識のためのCTCに基づくエンドツーエンド手法の探索
- Authors: Khin Me Me Chit, Laet Laet Lin
- Abstract要約: 一連の実験は、畳み込み層が加わって落下するモデルのトポロジー上で提示される。
実験は、26時間近いミャンマーの音声コーパスを使用して、低リソースシナリオで行われます。
最良のモデルは4.72%の文字誤り率(CER)とテストセットの12.38%の音節誤り率(SER)を達成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore a Connectionist Temporal Classification (CTC) based
end-to-end Automatic Speech Recognition (ASR) model for the Myanmar language. A
series of experiments is presented on the topology of the model in which the
convolutional layers are added and dropped, different depths of bidirectional
long short-term memory (BLSTM) layers are used and different label encoding
methods are investigated. The experiments are carried out in low-resource
scenarios using our recorded Myanmar speech corpus of nearly 26 hours. The best
model achieves character error rate (CER) of 4.72% and syllable error rate
(SER) of 12.38% on the test set.
- Abstract(参考訳): 本研究では,ミャンマー語における接続型時間分類(CTC)に基づくエンドツーエンド自動音声認識(ASR)モデルについて検討する。
畳み込み層を追加・ドロップするモデルのトポロジーに一連の実験を行い、双方向長短期記憶層(BLSTM)の深度を異なるラベル符号化法を用いて検討した。
実験はミャンマーの音声コーパスを26時間近く使用して低リソースシナリオで実施した。
最良のモデルは4.72%の文字誤り率(CER)と12.38%の音節誤り率(SER)を達成する。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Keep Decoding Parallel with Effective Knowledge Distillation from
Language Models to End-to-end Speech Recognisers [19.812986973537143]
本研究では,BERT教師モデルから中間層を用いた自動音声認識(ASR)モデルへの知識蒸留(KD)の新たなアプローチを提案する。
本手法は,中間層と最終層の両方を用いて,言語モデル(LM)情報をより効果的にASRモデルに蒸留可能であることを示す。
提案手法を用いて,外部LMの浅層融合よりも高い認識精度を実現し,高速並列復号化を実現する。
論文 参考訳(メタデータ) (2024-01-22T05:46:11Z) - LEAD: Liberal Feature-based Distillation for Dense Retrieval [67.48820723639601]
知識蒸留は、強い教師モデルから比較的弱い学生モデルに知識を伝達するためにしばしば用いられる。
従来のメソッドにはレスポンスベースのメソッドとフィーチャーベースのメソッドが含まれる。
本稿では,リベラルな特徴量に基づく蒸留法(LEAD)を提案する。
論文 参考訳(メタデータ) (2022-12-10T06:30:54Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - End-to-end LSTM based estimation of volcano event epicenter localization [55.60116686945561]
火山イベントの局所化問題に対処するために, エンドツーエンドのLSTMスキームを提案する。
LSTMは、時間変化の信号のダイナミクスを捉えることができるため、選択された。
その結果、LSTMベースのアーキテクチャは成功率、すなわち1.0Km未満のエラーが48.5%に等しいことを示した。
論文 参考訳(メタデータ) (2021-10-27T17:11:33Z) - Noise-resistant Deep Metric Learning with Ranking-based Instance
Selection [59.286567680389766]
PRISM(Probabilistic Ranking-based Instance Selection with Memory)と呼ばれるDMLの耐騒音トレーニング技術を提案する。
PRISMは、ニューラルネットワークの以前のバージョンから抽出された画像特徴との平均的類似性を用いて、ミニバッチ内のノイズデータを識別する。
メモリバンクが生み出す高い計算コストを緩和するために,個々のデータポイントをクラスセンタに置き換える高速化手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T03:22:17Z) - Cross-Utterance Language Models with Acoustic Error Sampling [1.376408511310322]
標準長短期メモリ (LSTM) LMへの入力を増強するために, CULM (Cross-utterance LM) を提案する。
トレーニングとテストタイムのミスマッチを低減するために,音響誤差サンプリング手法を提案する。
AMIデータセットとSwitchboardデータセットの両方で実施された実験では、CULMがLSTM LMベースラインWERより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-19T17:40:11Z) - AUTSL: A Large Scale Multi-modal Turkish Sign Language Dataset and
Baseline Methods [6.320141734801679]
大規模マルチモーダルなトルコ手話データセット(AUTSL)をベンチマークで提案する。
我々のデータセットは、43の異なるシグナが実行した226のサインと、38,336の孤立したシグナのビデオサンプルで構成されています。
我々は、いくつかのディープラーニングベースのモデルをトレーニングし、ベンチマークを用いて経験的評価を行った。
論文 参考訳(メタデータ) (2020-08-03T15:12:05Z) - A Study on Effects of Implicit and Explicit Language Model Information
for DBLSTM-CTC Based Handwriting Recognition [51.36957172200015]
本稿では,DBLSTM-CTCを用いた手書き文字認識における暗黙的および明示的言語モデル情報の効果について検討する。
DBLSTMをトレーニングするために100万行のトレーニング文を使用しても、明示的な言語モデルを使用することは有用です。
論文 参考訳(メタデータ) (2020-07-31T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。