論文の概要: ASR Under Noise: Exploring Robustness for Sundanese and Javanese
- arxiv url: http://arxiv.org/abs/2509.25878v1
- Date: Tue, 30 Sep 2025 07:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.05389
- Title: ASR Under Noise: Exploring Robustness for Sundanese and Javanese
- Title(参考訳): ASRの騒音 - SundaneseとJavaneseのロバスト性を探る
- Authors: Salsabila Zahirah Pranida, Muhammad Cendekia Airlangga, Rifo Ahmad Genadi, Shady Shehata,
- Abstract要約: インドネシアの主要な2言語であるジャワ語とスンダ語に対するWhisperベース自動音声認識(ASR)モデルの堅牢性について検討する。
合成雑音増強とSpecAugmentを含む複数のトレーニング戦略を実験し、信号-雑音比(SNR)の範囲で性能を評価する。
以上の結果から,特に大きなWhisperモデルにおいて,ノイズ認識トレーニングはロバスト性を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 2.839588958814753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the robustness of Whisper-based automatic speech recognition (ASR) models for two major Indonesian regional languages: Javanese and Sundanese. While recent work has demonstrated strong ASR performance under clean conditions, their effectiveness in noisy environments remains unclear. To address this, we experiment with multiple training strategies, including synthetic noise augmentation and SpecAugment, and evaluate performance across a range of signal-to-noise ratios (SNRs). Our results show that noise-aware training substantially improves robustness, particularly for larger Whisper models. A detailed error analysis further reveals language-specific challenges, highlighting avenues for future improvements
- Abstract(参考訳): インドネシアの主要2言語(ジャワ語とスンダ語)に対するWhisperベースの自動音声認識(ASR)モデルの堅牢性について検討する。
近年の研究では、清潔な環境下での強いASR性能が示されているが、ノイズの多い環境での有効性は明らかになっていない。
そこで我々は,合成雑音増減とSpecAugmentを含む複数のトレーニング手法を実験し,信号-雑音比(SNR)の範囲で性能評価を行った。
以上の結果から,特に大きなWhisperモデルにおいて,ノイズ認識トレーニングはロバスト性を大幅に向上させることがわかった。
詳細なエラー解析により言語固有の課題がさらに明らかになり、将来の改善への道のりが強調される
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Reassessing Noise Augmentation Methods in the Context of Adversarial Speech [12.488332326259469]
自動音声認識システムにおいて,雑音増進学習が対向的堅牢性を同時に改善できるかどうかを検討する。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T11:51:10Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Addressing the Vulnerability of NMT in Input Perturbations [10.103375853643547]
文脈拡張再構成手法により,雑音のある単語の効果を低減し,NMTモデルのロバスト性を向上させる。
CERは、(1)入力シーケンスの自然性を判断するステップ、(2)より優れた、より堅牢な文脈表現を生成することで、ノイズ伝搬を防御するステップの2つのステップで、ノイズに抵抗するモデルを訓練する。
論文 参考訳(メタデータ) (2021-04-20T07:52:58Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。