論文の概要: Proficiency-Aware Adaptation and Data Augmentation for Robust L2 ASR
- arxiv url: http://arxiv.org/abs/2510.10738v1
- Date: Sun, 12 Oct 2025 18:20:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 20:23:38.943328
- Title: Proficiency-Aware Adaptation and Data Augmentation for Robust L2 ASR
- Title(参考訳): ロバストL2ASRの習熟度適応とデータ拡張
- Authors: Ling Sun, Charlotte Zhu, Shuju Shi,
- Abstract要約: 汎用的なASRは、L2学習者のような非定型話者に対して、バイアスを強化し、教育やアクセシビリティにおける使用を制限する。
我々は,WERの微調整によって平均的なWERが減少するが,同時に格差を拡大し,低レベルの学習者に不均等なダメージを与えることを示す。
本研究では,習熟度の高いマルチタスク学習,習熟度分類を併用したASRの最適化,および(ii)目標拡張を提案し,低習熟度音声に対するスペクトログラムマスキングを適用して不均衡に対処する。
- 参考スコア(独自算出の注目度): 1.9051696778411429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General-purpose ASR underperforms for atypical speakers, such as L2 learners, reinforcing bias and limiting use in education and accessibility. Using the CEFR-graded Speak and Improve corpus, we show that naive fine-tuning of Whisper reduces average WER but simultaneously widens disparities and disproportionately harms lower-level learners. To address this, we propose two strategies: (i) proficiency-aware multitask learning, jointly optimizing ASR with proficiency classification, and (ii) targeted augmentation, applying spectrogram masking to low-proficiency speech to counter imbalance. These approaches reduce WER by up to 29.4 percent (relative) and insertion/deletion errors by as much as 58.6 percent (relative). Crucially, despite the severe imbalance of the dataset reflecting real-world distributions, both strategies consistently narrow proficiency gaps, advancing equitable ASR for L2 learners.
- Abstract(参考訳): 汎用的なASRは、L2学習者のような非定型話者に対して、バイアスを強化し、教育やアクセシビリティにおける使用を制限する。
CEFR グレードの Speak と Improve corpus を用いて,WER の微調整により平均値が低下するが,同時に格差を拡大し,低レベルの学習者に不均等に害を与えることを示す。
これを解決するために,我々は2つの戦略を提案する。
一 習熟度を考慮したマルチタスク学習、習熟度分類による共同最適化、及び
(II) 目標増強, スペクトルマスキングを低習熟度音声に適用し, 不均衡に対処した。
これらのアプローチにより、WERは29.4%(相対)まで減少し、挿入/削除エラーは58.6%(相対)まで減少する。
重要なことは、実世界の分布を反映するデータセットの激しい不均衡にもかかわらず、両戦略は一貫して熟練度ギャップを狭め、L2学習者にとって同等のASRを推し進めている。
関連論文リスト
- Bridging ASR and LLMs for Dysarthric Speech Recognition: Benchmarking Self-Supervised and Generative Approaches [0.0]
音素歪みと高い可変性による音声認識(ASR)
Wav2Vec、HuBERT、Whisperといった自己監督型ASRモデルは、将来性を示しているが、変形性音声におけるそれらの有効性は未だ不明である。
本研究は, CTC, seq2seq, LLM強化復号化など, 異なる復号化戦略でこれらのモデルを体系的にベンチマークする。
論文 参考訳(メタデータ) (2025-08-11T14:31:20Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - Joint Unsupervised and Supervised Training for Automatic Speech
Recognition via Bilevel Optimization [73.98386682604122]
両レベル共同教師なし・教師付き訓練(BL-JUST)と呼ばれる自動音声認識(ASR)タスクのための音響モデルのトレーニングのための,バイレベル最適化に基づく新たなトレーニング手法を提案する。
BL-JUSTは、教師なしの損失と教師なしの損失で下層と上層を最適化し、最近のペナルティベースの二レベル最適化の進歩を利用して、安価で複雑なASR問題と厳密な収束を保証する。
論文 参考訳(メタデータ) (2024-01-13T05:01:47Z) - ML-LMCL: Mutual Learning and Large-Margin Contrastive Learning for
Improving ASR Robustness in Spoken Language Understanding [55.39105863825107]
本稿では,ML-LMCL(Multual Learning and Large-Margin Contrastive Learning)を提案する。
微調整では、相互学習を適用し、手書き文字とASR文字の2つのSLUモデルを訓練する。
3つのデータセットの実験では、ML-LMCLは既存のモデルより優れ、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-19T16:53:35Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - Contrastive Learning for Improving ASR Robustness in Spoken Language
Understanding [28.441725610692714]
本稿では,ASRの誤りに対して頑健な発話表現を,対照的な目的を用いて学習することに焦点を当てる。
3つのベンチマークデータセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-02T07:21:21Z) - Towards Accurate Knowledge Transfer via Target-awareness Representation
Disentanglement [56.40587594647692]
本稿では,TRED(Target-Awareness Representation Disentanglement)の概念を取り入れた新しいトランスファー学習アルゴリズムを提案する。
TREDは、対象のタスクに関する関連する知識を元のソースモデルから切り離し、ターゲットモデルを微調整する際、レギュレータとして使用する。
各種実世界のデータセットを用いた実験により,本手法は標準微調整を平均2%以上安定的に改善することが示された。
論文 参考訳(メタデータ) (2020-10-16T17:45:08Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。