Fugu-MT 論文翻訳(概要): Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition

論文の概要: Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2208.08509v1
Date: Wed, 17 Aug 2022 20:00:54 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-19 13:16:23.928611
Title: Analyzing Robustness of End-to-End Neural Models for Automatic Speech Recognition
Title（参考訳）: 音声認識のためのエンドツーエンドニューラルモデルのロバスト性解析
Authors: Goutham Rajendran, Wei Zou
Abstract要約: 音声認識のための事前学習ニューラルネットワークのロバスト性について検討する。本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTのロバスト性解析を行う。
参考スコア（独自算出の注目度）: 11.489161072526677
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate robustness properties of pre-trained neural models for automatic speech recognition. Real life data in machine learning is usually very noisy and almost never clean, which can be attributed to various factors depending on the domain, e.g. outliers, random noise and adversarial noise. Therefore, the models we develop for various tasks should be robust to such kinds of noisy data, which led to the thriving field of robust machine learning. We consider this important issue in the setting of automatic speech recognition. With the increasing popularity of pre-trained models, it's an important question to analyze and understand the robustness of such models to noise. In this work, we perform a robustness analysis of the pre-trained neural models wav2vec2, HuBERT and DistilHuBERT on the LibriSpeech and TIMIT datasets. We use different kinds of noising mechanisms and measure the model performances as quantified by the inference time and the standard Word Error Rate metric. We also do an in-depth layer-wise analysis of the wav2vec2 model when injecting noise in between layers, enabling us to predict at a high level what each layer learns. Finally for this model, we visualize the propagation of errors across the layers and compare how it behaves on clean versus noisy data. Our experiments conform the predictions of Pasad et al. [2021] and also raise interesting directions for future work.
Abstract（参考訳）: 自動音声認識のための事前学習ニューラルモデルのロバスト性について検討した。機械学習の実際のデータは、通常非常にノイズが多く、ほとんどクリーンではないため、ドメインによって異なる要因(例えば、異常値、ランダムノイズ、逆雑音)によって引き起こされる可能性がある。したがって、我々が様々なタスクのために開発したモデルは、このような騒がしいデータに対して堅牢でなければならないため、堅牢な機械学習の分野が栄えている。自動音声認識の設定において、この重要な問題を考える。事前訓練されたモデルの人気が高まっているため、そのようなモデルのノイズに対する堅牢性を分析し、理解することが重要である。本研究では,LibriSpeechおよびTIMITデータセット上で,事前学習したニューラルネットワークwav2vec2, HuBERT, DistilHuBERTの堅牢性解析を行う。予測時間と標準単語誤り率測定値で定量化されるモデル性能を,異なる種類のノイズ発生機構を用いて測定する。また、層間にノイズを注入する際のwav2vec2モデルの詳細層解析を行い、各層が何を学習するかを高いレベルで予測する。最後に,レイヤ間におけるエラーの伝搬を可視化し,クリーンデータとノイズデータでエラーがどう振る舞うかを比較する。我々の実験はPasadらの予測に合致する。 2021年は]また今後の仕事にも興味深い方向性を示します。

関連論文リスト

Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文参考訳（メタデータ） (2025-03-21T23:21:17Z)
Robust Neural Processes for Noisy Data [1.7268667700090563]
ノイズによってデータが汚染された場合の文脈内学習モデルの振る舞いについて検討する。クリーンなデータで最高のパフォーマンスを示すモデルは、ノイズの多いデータで最高のパフォーマンスを示すモデルとは異なることが分かりました。本稿では,NPモデルの学習方法を提案する。
論文参考訳（メタデータ） (2024-11-03T20:00:55Z)
Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2024-03-11T16:22:41Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
DDKtor: Automatic Diadochokinetic Speech Analysis [13.68342426889044]
本稿では,無表記・無転写音声から子音と母音を自動的に分離する2つのディープニューラルネットワークモデルを提案する。若い健康な個人のデータセットの結果から、LSTMモデルは現在の最先端システムよりも優れています。 LSTMモデルは、パーキンソン病データセットの未確認高齢者を対象に、訓練されたヒトアノテータに匹敵する結果を提示する。
論文参考訳（メタデータ） (2022-06-29T13:34:03Z)
Visualising and Explaining Deep Learning Models for Speech Quality Prediction [0.0]
本稿では,非侵入的音声品質予測モデルであるNISQAについて分析する。畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)から構成される。
論文参考訳（メタデータ） (2021-12-12T12:50:03Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
Anomaly Detection of Time Series with Smoothness-Inducing Sequential Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文参考訳（メタデータ） (2021-02-02T06:15:15Z)
Firearm Detection via Convolutional Neural Networks: Comparing a Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文参考訳（メタデータ） (2020-12-17T15:19:29Z)
Audio-Visual Event Recognition through the lens of Adversary [38.497204362659296]
本研究は, 対向雑音のレンズによるマルチモーダル学習に関連するいくつかの重要な課題について検討することを目的とする。我々は,Google AudioSetでトレーニングされた最先端のニューラルモデルを攻撃するために,敵対的な例を構築した。
論文参考訳（メタデータ） (2020-11-15T01:36:09Z)
Learning Noise-Aware Encoder-Decoder from Noisy Labels by Alternating Back-Propagation for Saliency Detection [54.98042023365694]
本稿では,ノイズを考慮したエンコーダ・デコーダ・フレームワークを提案する。提案モデルはニューラルネットワークによってパラメータ化された2つのサブモデルから構成される。
論文参考訳（メタデータ） (2020-07-23T18:47:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。