論文の概要: ASR Under Noise: Exploring Robustness for Sundanese and Javanese
- arxiv url: http://arxiv.org/abs/2509.25878v1
- Date: Tue, 30 Sep 2025 07:20:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.05389
- Title: ASR Under Noise: Exploring Robustness for Sundanese and Javanese
- Title(参考訳): ASRの騒音 - SundaneseとJavaneseのロバスト性を探る
- Authors: Salsabila Zahirah Pranida, Muhammad Cendekia Airlangga, Rifo Ahmad Genadi, Shady Shehata,
- Abstract要約: インドネシアの主要な2言語であるジャワ語とスンダ語に対するWhisperベース自動音声認識(ASR)モデルの堅牢性について検討する。
合成雑音増強とSpecAugmentを含む複数のトレーニング戦略を実験し、信号-雑音比(SNR)の範囲で性能を評価する。
以上の結果から,特に大きなWhisperモデルにおいて,ノイズ認識トレーニングはロバスト性を大幅に向上させることがわかった。
- 参考スコア(独自算出の注目度): 2.839588958814753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate the robustness of Whisper-based automatic speech recognition (ASR) models for two major Indonesian regional languages: Javanese and Sundanese. While recent work has demonstrated strong ASR performance under clean conditions, their effectiveness in noisy environments remains unclear. To address this, we experiment with multiple training strategies, including synthetic noise augmentation and SpecAugment, and evaluate performance across a range of signal-to-noise ratios (SNRs). Our results show that noise-aware training substantially improves robustness, particularly for larger Whisper models. A detailed error analysis further reveals language-specific challenges, highlighting avenues for future improvements
- Abstract(参考訳): インドネシアの主要2言語(ジャワ語とスンダ語)に対するWhisperベースの自動音声認識(ASR)モデルの堅牢性について検討する。
近年の研究では、清潔な環境下での強いASR性能が示されているが、ノイズの多い環境での有効性は明らかになっていない。
そこで我々は,合成雑音増減とSpecAugmentを含む複数のトレーニング手法を実験し,信号-雑音比(SNR)の範囲で性能評価を行った。
以上の結果から,特に大きなWhisperモデルにおいて,ノイズ認識トレーニングはロバスト性を大幅に向上させることがわかった。
詳細なエラー解析により言語固有の課題がさらに明らかになり、将来の改善への道のりが強調される
関連論文リスト
- When Denoising Hinders: Revisiting Zero-Shot ASR with SAM-Audio and Whisper [0.0]
本稿では,メタAIによるSegment Anything Model Audioの効果について,Whisperを用いたゼロショット文字起こしのための前処理ステップとして,系統的研究を行った。
一般的な直観とは対照的に,SAM-AudioプリプロセッシングはASR性能を低下させる。
人間の聴取者にとって知覚的にクリーンな音声は、必ずしも機械認識にとって堅牢ではない。
論文 参考訳(メタデータ) (2026-03-05T01:20:11Z) - Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。
さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文 参考訳(メタデータ) (2026-02-24T14:46:54Z) - Noise-Robust Target-Speaker Voice Activity Detection Through Self-Supervised Pretraining [21.26555178371168]
ターゲット話者音声活動検出(Target-Speaker Voice Activity Detection、TS-VAD)は、音声フレーム内の既知のターゲット話者から音声の存在を検出するタスクである。
ディープニューラルネットワークベースのモデルは、このタスクで優れたパフォーマンスを示している。
雑音条件下でのTS-VAD性能を向上させるための、因果的自己監視学習(SSL)事前トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-06T18:00:14Z) - Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - Reassessing Noise Augmentation Methods in the Context of Adversarial Speech [12.488332326259469]
自動音声認識システムにおいて,雑音増進学習が対向的堅牢性を同時に改善できるかどうかを検討する。
その結果,雑音の増大は雑音音声のモデル性能を向上するだけでなく,敵攻撃に対するモデルの堅牢性も向上することが示された。
論文 参考訳(メタデータ) (2024-09-03T11:51:10Z) - Enhancing Noise Robustness of Retrieval-Augmented Language Models with Adaptive Adversarial Training [39.21885486667879]
大型言語モデル(LLM)は、幻覚、時代遅れの知識、追跡不能な推論プロセスなどの課題に遭遇する重大な能力を示す。
Retrieval-augmented Generation(RAG)は、これらの課題を軽減するために、外部データベースからの知識を統合する、有望なソリューションとして登場した。
本稿では,RAAT(Retrieval-augmented Adaptive Adrial Training)として知られる新しいRAGアプローチを提案する。
論文 参考訳(メタデータ) (2024-05-31T16:24:53Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Continuous Modeling of the Denoising Process for Speech Enhancement
Based on Deep Learning [61.787485727134424]
状態変数をデノナイジングプロセスを示すために使用します。
UNetのようなニューラルネットワークは、連続的復調プロセスからサンプリングされたすべての状態変数を推定することを学ぶ。
実験結果から, クリーンターゲットに少量の雑音を保存することは, 音声強調に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-09-17T13:27:11Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Addressing the Vulnerability of NMT in Input Perturbations [10.103375853643547]
文脈拡張再構成手法により,雑音のある単語の効果を低減し,NMTモデルのロバスト性を向上させる。
CERは、(1)入力シーケンスの自然性を判断するステップ、(2)より優れた、より堅牢な文脈表現を生成することで、ノイズ伝搬を防御するステップの2つのステップで、ノイズに抵抗するモデルを訓練する。
論文 参考訳(メタデータ) (2021-04-20T07:52:58Z) - Improving noise robust automatic speech recognition with single-channel
time-domain enhancement network [100.1041336974175]
単一チャネルの時間領域分割手法により,ASRの性能が大幅に向上することを示す。
単一チャネル雑音の低減はASR性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-03-09T09:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。