論文の概要: Fully Learnable Front-End for Multi-Channel Acoustic Modeling using
Semi-Supervised Learning
- arxiv url: http://arxiv.org/abs/2002.00125v1
- Date: Sat, 1 Feb 2020 02:06:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 01:20:18.155835
- Title: Fully Learnable Front-End for Multi-Channel Acoustic Modeling using
Semi-Supervised Learning
- Title(参考訳): 半教師付き学習を用いたマルチチャネル音響モデルのための完全学習可能なフロントエンド
- Authors: Sanna Wager, Aparna Khare, Minhua Wu, Kenichi Kumatani, Shiva Sundaram
- Abstract要約: 遠距離場自動音声認識のための完全学習可能なマルチチャネル音響モデルを訓練する。
学生は多チャンネル特徴抽出層と上位分類層を共同で訓練した。
ビームフォーマを用いたマルチチャネルモデルと比較して,事前学習により単語誤り率が10.7%向上することがわかった。
- 参考スコア(独自算出の注目度): 20.97480659815297
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we investigated the teacher-student training paradigm to train
a fully learnable multi-channel acoustic model for far-field automatic speech
recognition (ASR). Using a large offline teacher model trained on beamformed
audio, we trained a simpler multi-channel student acoustic model used in the
speech recognition system. For the student, both multi-channel feature
extraction layers and the higher classification layers were jointly trained
using the logits from the teacher model. In our experiments, compared to a
baseline model trained on about 600 hours of transcribed data, a relative
word-error rate (WER) reduction of about 27.3% was achieved when using an
additional 1800 hours of untranscribed data. We also investigated the benefit
of pre-training the multi-channel front end to output the beamformed log-mel
filter bank energies (LFBE) using L2 loss. We find that pre-training improves
the word error rate by 10.7% when compared to a multi-channel model directly
initialized with a beamformer and mel-filter bank coefficients for the front
end. Finally, combining pre-training and teacher-student training produces a
WER reduction of 31% compared to our baseline.
- Abstract(参考訳): 本研究では,遠距離場自動音声認識(ASR)のための完全学習可能なマルチチャンネル音響モデルを学習するための教師学生訓練パラダイムについて検討した。
ビームフォーミング音声で学習した大規模オフライン教師モデルを用いて,音声認識システムで使用する簡易なマルチチャネル学生音響モデルを訓練した。
学生は,マルチチャネル特徴抽出層と上位分類層の両方を教師モデルのロジットを用いて共同で訓練した。
実験では,600時間以上の書き起こしデータをトレーニングしたベースラインモデルと比較して,1800時間以上の書き起こしデータを用いることで,単語エラー率(WER)の約27.3%の削減が達成された。
また、L2損失を用いたビームフォーミング対数メルフィルタバンクエネルギー(LFBE)を出力するマルチチャネルフロントエンドの事前学習の利点についても検討した。
その結果, 前端のビームフォーマとメルフィルタバンク係数を直接初期化したマルチチャネルモデルと比較して,単語誤り率を10.7%向上させることがわかった。
最後に,プレトレーニングと教員養成を組み合わせることで,本研究のベースラインと比較して31%の削減が可能となった。
関連論文リスト
- Self-Supervised Learning for Multi-Channel Neural Transducer [3.045851438458641]
本稿では,wav2vec 2.0 フレームワークに基づくマルチチャネルエンドツーエンド ASR モデルの自己教師型学習手法について検討する。
我々は,遠距離フィールド内データセットの事前学習を行わないモデルと比較して,文字誤り率を66%削減した。
論文 参考訳(メタデータ) (2024-08-06T04:12:31Z) - Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection [57.537583869961885]
自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。
我々は、wav2vec2モデルにローランク適応(LoRA)を適用し、トレーニング済みモデルの重みを凍結し、トランスアーキテクチャの各層にトレーニング可能なランク分解行列を注入する。
317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を実現した。
論文 参考訳(メタデータ) (2023-06-09T01:43:41Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Efficient Utilization of Large Pre-Trained Models for Low Resource ASR [31.57758062484189]
ベトナム語とドイツ語の医学領域から,低リソースの会話音声コーパスについて検討した。
本研究では,大規模事前学習モデルの簡易微調整を超えて,教師なし手法の利点を示す。
論文 参考訳(メタデータ) (2022-10-26T17:34:30Z) - SPIRAL: Self-supervised Perturbation-Invariant Representation Learning
for Speech Pre-Training [25.80559992732508]
SPIRALは、教師/学生のフレームワークにおいて、摂動データの表現を聴覚的に学習することで機能する。
本稿では,実環境における音声応用において重要なノイズ・ロバスト性の問題に対処する。
論文 参考訳(メタデータ) (2022-01-25T09:53:36Z) - Self-Supervised Learning for speech recognition with Intermediate layer
supervision [52.93758711230248]
自己教師付き学習(ILS-SSL)のための中間層スーパービジョンを提案する。
ILS-SSLは、中間層にSSL損失を追加することで、可能な限りコンテンツ情報に集中させます。
LibriSpeech の他のテストセットの実験により,本手法は HuBERT を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-12-16T10:45:05Z) - A Method to Reveal Speaker Identity in Distributed ASR Training, and How
to Counter It [3.18475216176047]
学習発話の話者の同一性を明らかにするための第1の手法を,勾配のみへのアクセスで設計する。
我々は、LibriSpeechデータセット上で34%のトップ1精度(51%のトップ5精度)で話者の身元を明らかにすることができることを示した。
論文 参考訳(メタデータ) (2021-04-15T23:15:12Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z) - RNN-T Models Fail to Generalize to Out-of-Domain Audio: Causes and
Solutions [73.45995446500312]
ストリーミングおよび非ストリーミングリカレントニューラルネットワークトランスデューサ(RNN-T)のエンド・ツー・エンドモデルにおける一般化特性を解析した。
トレーニング中に複数の正規化手法を組み合わせる方法と,動的重複推論を用いる方法を提案する。
論文 参考訳(メタデータ) (2020-05-07T06:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。