論文の概要: Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking
- arxiv url: http://arxiv.org/abs/2510.09528v1
- Date: Fri, 10 Oct 2025 16:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.397169
- Title: Accent-Invariant Automatic Speech Recognition via Saliency-Driven Spectrogram Masking
- Title(参考訳): サリエンシ駆動型スペクトログラムマスキングによるアクセント不変自動音声認識
- Authors: Mohammad Hossein Sameti, Sepehr Harfi Moridani, Ali Zarean, Hossein Sameti,
- Abstract要約: 本稿ではアクセントと方言の分類を認識パイプラインに統合するアクセント不変のASRフレームワークを提案する。
我々のアプローチは、アクセント固有の手がかりを捉え、その予測に最も影響を及ぼす領域をマスキングするためにスペクトログラムベースの分類器を訓練し、データ拡張にマスク付きスペクトログラムを使用することである。
ペルシャ語では、複数の地域アクセントにまたがる新たに収集されたデータセットを導入し、ペルシャ語ASRにおけるアクセント変動のシステマティックなベンチマークを確立した。
- 参考スコア(独自算出の注目度): 1.108292291257035
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pre-trained transformer-based models have significantly advanced automatic speech recognition (ASR), yet they remain sensitive to accent and dialectal variations, resulting in elevated word error rates (WER) in linguistically diverse languages such as English and Persian. To address this challenge, we propose an accent-invariant ASR framework that integrates accent and dialect classification into the recognition pipeline. Our approach involves training a spectrogram-based classifier to capture accent-specific cues, masking the regions most influential to its predictions, and using the masked spectrograms for data augmentation. This enhances the robustness of ASR models against accent variability. We evaluate the method using both English and Persian speech. For Persian, we introduce a newly collected dataset spanning multiple regional accents, establishing the first systematic benchmark for accent variation in Persian ASR that fills a critical gap in multilingual speech research and provides a foundation for future studies on low-resource, linguistically diverse languages. Experimental results with the Whisper model demonstrate that our masking and augmentation strategy yields substantial WER reductions in both English and Persian settings, confirming the effectiveness of the approach. This research advances the development of multilingual ASR systems that are resilient to accent and dialect diversity. Code and dataset are publicly available at: https://github.com/MH-Sameti/Accent_invariant_ASR
- Abstract(参考訳): 事前訓練されたトランスフォーマーベースモデルは、かなり高度な自動音声認識(ASR)を持つが、アクセントや方言のバリエーションに敏感であり、英語やペルシア語などの言語的に多様な言語で単語誤り率(WER)が上昇する。
この課題に対処するために、アクセントと方言の分類を認識パイプラインに統合するアクセント不変のASRフレームワークを提案する。
我々のアプローチは、アクセント固有の手がかりを捉え、その予測に最も影響を及ぼす領域をマスキングするためにスペクトログラムベースの分類器を訓練し、データ拡張にマスク付きスペクトログラムを使用することである。
これによりアクセント変動に対するASRモデルの堅牢性が向上する。
本手法は英語とペルシア語の両方を用いて評価する。
ペルシャ語では、複数の地域アクセントにまたがる新たなデータセットを導入し、多言語言語研究における重要なギャップを埋める、ペルシャ語ASRにおけるアクセント変動の体系的ベンチマークを初めて確立し、低リソース、言語学的に多様な言語の研究のための基盤を提供する。
Whisperモデルによる実験結果から、我々のマスクと強化戦略は、英語とペルシア語の両方でかなりのWER削減をもたらすことが示され、アプローチの有効性が確認された。
本研究はアクセントや方言の多様性に耐性のある多言語ASRシステムの開発を推進している。
コードとデータセットは、https://github.com/MH-Sameti/Accent_invariant_ASRで公開されている。
関連論文リスト
- Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。
しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。
本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-12-21T04:05:43Z) - Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Transfer the linguistic representations from TTS to accent conversion
with non-parallel data [7.376032484438044]
アクセント変換は、話者のアイデンティティを保ちながら、ソース音声のアクセントをターゲットアクセントに変換することを目的としている。
本稿ではアクセントに依存しない言語表現を学習するアクセント変換のための新しい非自己回帰フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-07T16:39:34Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。