論文の概要: Towards Robust Waveform-Based Acoustic Models
- arxiv url: http://arxiv.org/abs/2110.08634v1
- Date: Sat, 16 Oct 2021 18:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 14:59:29.423089
- Title: Towards Robust Waveform-Based Acoustic Models
- Title(参考訳): ロバスト波形に基づく音響モデルに向けて
- Authors: Dino Oglic, Zoran Cvetkovic, Peter Sollich, Steve Renals, and Bin Yu
- Abstract要約: 本研究では,実験条件とトレーニング条件のミスマッチを特徴とする,ロバストな音響モデル学習手法を提案する。
本手法は,入力空間上の経験的密度を定義するデルタ関数を,トレーニングサンプル近傍の限界人口密度の近似で置き換えることにより,トレーニング中のリスク推定を改善することを目的としている。
- 参考スコア(独自算出の注目度): 41.82019240477273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an approach for learning robust acoustic models in adverse
environments, characterized by a significant mismatch between training and test
conditions. This problem is of paramount importance for the deployment of
speech recognition systems that need to perform well in unseen environments.
Our approach is an instance of vicinal risk minimization, which aims to improve
risk estimates during training by replacing the delta functions that define the
empirical density over the input space with an approximation of the marginal
population density in the vicinity of the training samples. More specifically,
we assume that local neighborhoods centered at training samples can be
approximated using a mixture of Gaussians, and demonstrate theoretically that
this can incorporate robust inductive bias into the learning process. We
characterize the individual mixture components implicitly via data augmentation
schemes, designed to address common sources of spurious correlations in
acoustic models. To avoid potential confounding effects on robustness due to
information loss, which has been associated with standard feature extraction
techniques (e.g., FBANK and MFCC features), we focus our evaluation on the
waveform-based setting. Our empirical results show that the proposed approach
can generalize to unseen noise conditions, with 150% relative improvement in
out-of-distribution generalization compared to training using the standard risk
minimization principle. Moreover, the results demonstrate competitive
performance relative to models learned using a training sample designed to
match the acoustic conditions characteristic of test utterances (i.e., optimal
vicinal densities).
- Abstract(参考訳): 本研究では,実験条件とトレーニング条件のミスマッチを特徴とする,ロバストな音響モデル学習手法を提案する。
この問題は、目に見えない環境でうまく機能する必要がある音声認識システムの展開において、最重要事項である。
このアプローチは,入力空間上の経験的密度を定義するデルタ関数を,トレーニングサンプル近傍の限界人口密度の近似値に置き換えることで,トレーニング中のリスク推定を改善することを目的とした,ビクタナルリスク最小化の例である。
より具体的には、訓練サンプルを中心とした地域地区はガウスの混合を用いて近似できると仮定し、これが学習過程に堅牢な帰納バイアスを組み込むことができることを理論的に実証する。
データ拡張スキームを用いて個々の混合成分を暗黙的に特徴付け、音響モデルにおける突発的相関の共通源に対処する。
標準特徴抽出技術(例えば、FBANKとMFCCの特徴)と関連付けられている情報損失によるロバスト性への潜在的な影響を避けるため、波形に基づく設定に焦点をあてる。
提案手法は, 標準リスク最小化原理を用いた訓練と比較して, 分布外一般化が150%向上し, 未発見の騒音条件に一般化できることを示す。
さらに,実験発話の音響条件(即ち,最適ビクチン密度)に適合するように設計した学習サンプルを用いて学習したモデルと比較し,競合性能を示す。
関連論文リスト
- Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - May the Noise be with you: Adversarial Training without Adversarial
Examples [3.4673556247932225]
我々は、敵の訓練を受けずに敵の訓練を受けたモデルを得ることができるかという疑問を調査する。
提案手法は,訓練時にNNモデルの層にガウス雑音を埋め込むことによって固有性を取り入れる。
我々の研究は、全く異なるアプローチで敵の訓練を受けたネットワークに貢献し、敵の訓練と経験的に類似した堅牢性を持つ。
論文 参考訳(メタデータ) (2023-12-12T08:22:28Z) - Noisy-ArcMix: Additive Noisy Angular Margin Loss Combined With Mixup
Anomalous Sound Detection [5.1308092683559225]
非教師付き異常音検出(ASD)は、正常な操作音の特徴を学習し、その偏差を感知することで、異常音を識別することを目的としている。
近年, 正規データの分類を利用した自己教師型タスクに焦点が当てられ, 高度なモデルでは, 異常データの表現空間の確保が重要であることが示されている。
本研究では,クラス内コンパクト性を確保し,正常試料と異常試料との角度ギャップを増大させる訓練手法を提案する。
論文 参考訳(メタデータ) (2023-10-10T07:04:36Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Risk-Sensitive Reinforcement Learning with Exponential Criteria [0.0]
我々は、堅牢な強化学習ポリシーを定義し、リスクに敏感な強化学習問題を定式化し、それらを近似する。
本稿では,近似更新を用いた乗算ベルマン方程式の解法に基づく新しいオンラインアクター・クリティカルアルゴリズムを提案する。
シミュレーション実験により,提案手法の実装,性能,ロバスト性を評価した。
論文 参考訳(メタデータ) (2022-12-18T04:44:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。