論文の概要: Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora
- arxiv url: http://arxiv.org/abs/2109.11086v1
- Date: Thu, 23 Sep 2021 00:43:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 14:46:34.891421
- Title: Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora
- Title(参考訳): シナリオ認識型音声認識:Apollo Fearless Steps & CHiME-4 Corporaの進歩
- Authors: Szu-Jui Chen, Wei Xia, John H.L. Hansen
- Abstract要約: 本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
- 参考スコア(独自算出の注目度): 70.46867541361982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we propose to investigate triplet loss for the purpose of an
alternative feature representation for ASR. We consider a general non-semantic
speech representation, which is trained with a self-supervised criteria based
on triplet loss called TRILL, for acoustic modeling to represent the acoustic
characteristics of each audio. This strategy is then applied to the CHiME-4
corpus and CRSS-UTDallas Fearless Steps Corpus, with emphasis on the 100-hour
challenge corpus which consists of 5 selected NASA Apollo-11 channels. An
analysis of the extracted embeddings provides the foundation needed to
characterize training utterances into distinct groups based on acoustic
distinguishing properties. Moreover, we also demonstrate that triplet-loss
based embedding performs better than i-Vector in acoustic modeling, confirming
that the triplet loss is more effective than a speaker feature. With additional
techniques such as pronunciation and silence probability modeling, plus
multi-style training, we achieve a +5.42% and +3.18% relative WER improvement
for the development and evaluation sets of the Fearless Steps Corpus. To
explore generalization, we further test the same technique on the 1 channel
track of CHiME-4 and observe a +11.90% relative WER improvement for real test
data.
- Abstract(参考訳): 本研究では,ASRの代替特徴表現を目的とした三重項損失について検討する。
本稿では,音声の音響特性を表現するための音響モデルとして,TRILLと呼ばれる三重項損失に基づく自己指示基準で訓練された一般非意味音声表現について考察する。
この戦略はchime-4コーパスとcrss-utdallas fearless stepsコーパスに適用され、nasaの5つの選択されたapollo-11チャンネルからなる100時間のチャレンジコーパスに重点を置いている。
抽出された埋め込みの分析は、音響的識別特性に基づいて異なるグループに訓練発話を特徴付けるために必要な基礎を提供する。
さらに, 音響モデルにおけるi-Vectorよりも, 3重項損失が話者特徴よりも効果的であることを確認する。
発音やサイレント確率モデリングなどの追加技術とマルチスタイルのトレーニングにより、Fearless Steps Corpusの開発および評価セットに対して、+5.42%と+3.18%の相対的なWER改善を達成する。
一般化を探求するため、CHiME-4の1チャンネルトラックで同様の手法を検証し、実データに対する相対的なWER改善を+11.90%観測する。
関連論文リスト
- Who Can Withstand Chat-Audio Attacks? An Evaluation Benchmark for Large Language Models [70.99768410765502]
アドリヤル音声攻撃は、音声に基づく人間と機械の相互作用において、大きな言語モデル(LLM)の増大に重大な脅威をもたらす。
本稿では,4種類の音声攻撃を含むChat-Audio Attacksベンチマークを紹介する。
Gemini-1.5-Pro や GPT-4o など,音声対話機能を備えた6つの最先端 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-11-22T10:30:48Z) - Reassessing Noise Augmentation Methods in the Context of Adversarial Speech [12.488332326259469]
自動音声認識システムにおいて,雑音増進学習が対向的堅牢性を同時に改善できるかどうかを検討する。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T11:51:10Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Evaluation of Deep-Learning-Based Voice Activity Detectors and Room
Impulse Response Models in Reverberant Environments [13.558688470594676]
最先端のディープラーニングベースの音声活動検出器(VAD)は、しばしば無響データを用いて訓練される。
約500万の発話を含む拡張トレーニングセットをシミュレートする。
我々は、RIRを生成するために5つの異なるモデルと、強化トレーニングセットでトレーニングされた5つの異なるVADを検討する。
論文 参考訳(メタデータ) (2021-06-25T09:05:38Z) - Feature Replacement and Combination for Hybrid ASR Systems [47.74348197215634]
ハイブリッドASRシステムにおけるこれらのフロントエンドフレームワーク、すなわちwav2vecの有用性を検討する。
事前学習した特徴抽出器の展開に加えて,異なる特徴を持つ同一タスクで訓練された既存の音響モデル(AM)の活用方法について検討する。
我々は、LibriSpeechテストクリーンおよびテスト他のセットの以前の最良のモデルよりも4%と6%の相対的な改善を得た。
論文 参考訳(メタデータ) (2021-04-09T11:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。