論文の概要: Evaluating and Improving the Robustness of Speech Command Recognition Models to Noise and Distribution Shifts
- arxiv url: http://arxiv.org/abs/2507.23128v1
- Date: Wed, 30 Jul 2025 22:14:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.81927
- Title: Evaluating and Improving the Robustness of Speech Command Recognition Models to Noise and Distribution Shifts
- Title(参考訳): 音声認識モデルの雑音・分布変化に対するロバスト性の評価と改善
- Authors: Anaïs Baranger, Lucas Maison,
- Abstract要約: 学習条件と入力特徴がOOD条件下での音声キーワード分類器の頑健性と一般化能力に与える影響について検討する。
以上の結果から,いくつかの構成ではノイズ認識訓練が改善することが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although prior work in computer vision has shown strong correlations between in-distribution (ID) and out-of-distribution (OOD) accuracies, such relationships remain underexplored in audio-based models. In this study, we investigate how training conditions and input features affect the robustness and generalization abilities of spoken keyword classifiers under OOD conditions. We benchmark several neural architectures across a variety of evaluation sets. To quantify the impact of noise on generalization, we make use of two metrics: Fairness (F), which measures overall accuracy gains compared to a baseline model, and Robustness (R), which assesses the convergence between ID and OOD performance. Our results suggest that noise-aware training improves robustness in some configurations. These findings shed new light on the benefits and limitations of noise-based augmentation for generalization in speech models.
- Abstract(参考訳): コンピュータビジョンにおける以前の研究は、分布内(ID)と分布外(OOD)の精度の間に強い相関関係を示してきたが、そのような関係は音声ベースモデルでは未解明のままである。
本研究では,OOD条件下での音声キーワード分類器の頑健さと一般化能力に,学習条件と入力特徴がどう影響するかを検討する。
さまざまな評価セットにまたがって、いくつかのニューラルネットワークをベンチマークします。
一般化におけるノイズの影響を定量化するために,ベースラインモデルと比較して総合的な精度向上を計測するFairness(F)と,IDとOOD性能の収束を評価するRobustness(R)の2つの指標を用いる。
以上の結果から,雑音認識学習は一部の構成において頑健性を向上させることが示唆された。
これらの結果は、音声モデルにおける一般化のための雑音に基づく拡張の利点と限界に新たな光を当てた。
関連論文リスト
- Machine Unlearning for Robust DNNs: Attribution-Guided Partitioning and Neuron Pruning in Noisy Environments [5.8166742412657895]
ディープニューラルネットワーク(DNN)は、さまざまなドメインで顕著な成功を収めているが、ノイズやトレーニングデータによってそのパフォーマンスが著しく低下する可能性がある。
本稿では,帰属誘導型データパーティショニング,識別的ニューロンプルーニング,およびノイズのあるサンプルの影響を軽減するための微調整を目的とした新しいフレームワークを提案する。
CIFAR-10の標準リトレーニングよりも約10%の絶対精度向上を実現し,ラベルノイズを注入した。
論文 参考訳(メタデータ) (2025-06-13T09:37:11Z) - Towards Robust Assessment of Pathological Voices via Combined Low-Level Descriptors and Foundation Model Representations [39.31175048498422]
本研究では,声質評価ネットワーク (VOQANet) を提案する。
また,低レベル音声記述子であるjitter,shimmer,haronics-to-noise ratio(HNR)とSFMをハイブリッド表現に組み込んだVOQANet+を導入する。
以上の結果から,特に患者レベルでの母音による入力は,音声属性を抽出する発話の長大さに優れることがわかった。
論文 参考訳(メタデータ) (2025-05-27T15:48:17Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Enhance Vision-Language Alignment with Noise [59.2608298578913]
本研究では,凍結モデルがカスタマイズノイズによって微調整可能であるか検討する。
ビジュアルエンコーダとテキストエンコーダの両方にノイズを注入することでCLIPを微調整できる正インセンティブノイズ(PiNI)を提案する。
論文 参考訳(メタデータ) (2024-12-14T12:58:15Z) - Assessing the Generalization Gap of Learning-Based Speech Enhancement
Systems in Noisy and Reverberant Environments [0.7366405857677227]
目に見えない条件への一般化は、通常、新しい音声、雑音または部屋のインパルス応答データベースでシステムをテストすることで評価される。
本研究では,テスト条件に基づいてトレーニングした参照モデルを用いた一般化評価フレームワークを提案する。
提案手法を用いて,フィードフォワードニューラルネットワーク(FFNN),ConvTasNet,DCCRN,MANNERの一般化ポテンシャルを評価する。
論文 参考訳(メタデータ) (2023-09-12T12:51:12Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z) - A Frequency Perspective of Adversarial Robustness [72.48178241090149]
理論的および経験的知見を参考に,周波数に基づく対向例の理解について述べる。
分析の結果,逆転例は高周波でも低周波成分でもないが,単にデータセット依存であることがわかった。
本稿では、一般に観測される精度対ロバスト性トレードオフの周波数に基づく説明法を提案する。
論文 参考訳(メタデータ) (2021-10-26T19:12:34Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。