論文の概要: Towards Fair ASR For Second Language Speakers Using Fairness Prompted Finetuning
- arxiv url: http://arxiv.org/abs/2510.18374v1
- Date: Tue, 21 Oct 2025 07:45:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.139093
- Title: Towards Fair ASR For Second Language Speakers Using Fairness Prompted Finetuning
- Title(参考訳): Fairness Prompted Finetuning を用いた第2言語話者のためのフェアASR
- Authors: Monorama Swain, Bubai Maji, Jagabandhu Mishra, Markus Schedl, Anders Søgaard, Jesper Rindom Jensen,
- Abstract要約: 第二言語話者のための公正な英語ASRシステムを構築するという課題に対処する。
広く使われているASRモデルWhisperとSeamless-M4Tを解析したところ、26のアクセント群で単語誤り率(WER)が大きく変動していることが判明した。
これを軽減するために,軽量アダプタを用いたフェアネスプロンプトファインタニングを提案する。
- 参考スコア(独自算出の注目度): 37.91306016310542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the challenge of building fair English ASR systems for second-language speakers. Our analysis of widely used ASR models, Whisper and Seamless-M4T, reveals large fluctuations in word error rate (WER) across 26 accent groups, indicating significant fairness gaps. To mitigate this, we propose fairness-prompted finetuning with lightweight adapters, incorporating Spectral Decoupling (SD), Group Distributionally Robust Optimization (Group-DRO), and Invariant Risk Minimization (IRM). Our proposed fusion of traditional empirical risk minimization (ERM) with cross-entropy and fairness-driven objectives (SD, Group DRO, and IRM) enhances fairness across accent groups while maintaining overall recognition accuracy. In terms of macro-averaged word error rate, our approach achieves a relative improvement of 58.7% and 58.5% over the large pretrained Whisper and SeamlessM4T, and 9.7% and 7.8% over them, finetuning with standard empirical risk minimization with cross-entropy loss.
- Abstract(参考訳): 本研究では,第2言語話者のための公正な英語ASRシステム構築の課題に対処する。
広く使われているASRモデルWhisperとSeamless-M4Tを解析した結果,26のアクセント群で単語誤り率(WER)が大きく変動していることが判明した。
これを軽減するために, スペクトルデカップリング (SD), Group Distributionally Robust Optimization (Group-DRO), Invariant Risk Minimization (IRM) を取り入れた, 軽量アダプタを用いたフェアネスプロンプトファインタニングを提案する。
従来の経験的リスク最小化 (ERM) と, 相互エントロピーとフェアネス駆動目標 (SD, Group DRO, IRM) の融合は, 全体としての認識精度を維持しつつ, アクセント群間の公平性を向上する。
マクロ平均単語誤り率では,大容量のWhisperおよびSeamlessM4Tに対して58.7%,58.5%,9.7%および7.8%の相対的な改善を達成し,クロスエントロピー損失を伴う標準的な経験的リスク最小化を達成した。
関連論文リスト
- Proficiency-Aware Adaptation and Data Augmentation for Robust L2 ASR [1.9051696778411429]
汎用的なASRは、L2学習者のような非定型話者に対して、バイアスを強化し、教育やアクセシビリティにおける使用を制限する。
我々は,WERの微調整によって平均的なWERが減少するが,同時に格差を拡大し,低レベルの学習者に不均等なダメージを与えることを示す。
本研究では,習熟度の高いマルチタスク学習,習熟度分類を併用したASRの最適化,および(ii)目標拡張を提案し,低習熟度音声に対するスペクトログラムマスキングを適用して不均衡に対処する。
論文 参考訳(メタデータ) (2025-10-12T18:20:58Z) - CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition [61.925178250628825]
グループ分散ロバストな最適化(グループDRO)は、最悪のグループ損失を最小限に抑えてこの問題に対処するが、グループ損失がグループ間の性能差を誤って表すと失敗する。
CTC-DROは群重み更新をスムースにすることで群DRO目標の欠点に対処し,一貫した高損失群に対する過剰エンハンシスを防ぐ。
論文 参考訳(メタデータ) (2025-02-03T19:29:42Z) - Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Distributionally Robust Multiclass Classification and Applications in
Deep Image Classifiers [3.179831861897336]
マルチクラスロジスティック回帰(MLR)のための分布ロバスト最適化(DRO)の定式化を開発する。
本研究では,新しいランダムトレーニング手法を採用することにより,試験誤差率を最大83.5%,損失を最大91.3%削減することを示した。
論文 参考訳(メタデータ) (2021-09-27T02:58:19Z) - Just Train Twice: Improving Group Robustness without Training Group
Information [101.84574184298006]
経験的リスク最小化による標準トレーニングは、特定のグループにおける平均的かつ低い精度で高い精度を達成するモデルを生成することができる。
群分布的ロバストな最適化 (group DRO) のような、最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要である。
本稿では,複数のエポックに対して標準的なERMモデルを訓練し,第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階のアプローチであるJTTを提案する。
論文 参考訳(メタデータ) (2021-07-19T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。