論文の概要: CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition
- arxiv url: http://arxiv.org/abs/2502.01777v2
- Date: Wed, 05 Mar 2025 17:25:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:49:47.211616
- Title: CTC-DRO: Robust Optimization for Reducing Language Disparities in Speech Recognition
- Title(参考訳): CTC-DRO:音声認識における言語差低減のためのロバスト最適化
- Authors: Martijn Bartelds, Ananjan Nandi, Moussa Koulako Bala Doumbouya, Dan Jurafsky, Tatsunori Hashimoto, Karen Livescu,
- Abstract要約: グループ分散ロバストな最適化(グループDRO)は、最悪のグループ損失を最小限に抑えてこの問題に対処するが、グループ損失がグループ間の性能差を誤って表すと失敗する。
CTC-DROは群重み更新をスムースにすることで群DRO目標の欠点に対処し,一貫した高損失群に対する過剰エンハンシスを防ぐ。
- 参考スコア(独自算出の注目度): 61.925178250628825
- License:
- Abstract: Modern deep learning models often achieve high overall performance, but consistently fail on specific subgroups. Group distributionally robust optimization (group DRO) addresses this problem by minimizing the worst-group loss, but it fails when group losses misrepresent performance differences between groups. This is common in domains like speech, where the widely used connectionist temporal classification (CTC) loss scales with input length and varies with linguistic and acoustic properties, leading to spurious differences between group losses. We present CTC-DRO, which addresses the shortcomings of the group DRO objective by smoothing the group weight update to prevent overemphasis on consistently high-loss groups, while using input length-matched batching to mitigate CTC's scaling issues. We evaluate CTC-DRO on the task of multilingual automatic speech recognition (ASR) across five language sets from the ML-SUPERB 2.0 benchmark. CTC-DRO consistently outperforms group DRO and CTC-based baseline models, reducing the worst-language error by up to 47.1% and the average error by up to 32.9%. CTC-DRO can be applied to ASR with minimal computational costs, and offers the potential for reducing group disparities in other domains with similar challenges.
- Abstract(参考訳): 現代のディープラーニングモデルは、しばしば高い全体的なパフォーマンスを達成するが、特定のサブグループでは一貫して失敗する。
グループ分散ロバスト最適化(グループDRO)は、最悪のグループ損失を最小限に抑えてこの問題に対処するが、グループ損失がグループ間の性能差を誤って表すと失敗する。
これは、広く使われているコネクショニスト時間分類(CTC)の損失が入力長と共にスケールし、言語的および音響的特性によって変化する言語のような領域で一般的であり、グループ損失の急激な違いをもたらす。
本稿では,グループDRO目標の欠点に対処するCTC-DROについて,CTCのスケーリング問題を緩和するために,入力長マッチングバッチ処理を用いながら,グループ重み付け更新をスムーズにすることで,一貫した高損失なグループに対する過剰エンハンシスを防止する。
ML-SUPERB 2.0ベンチマークを用いて,多言語自動音声認識(ASR)におけるCTC-DROの評価を行った。
CTC-DROはグループDROとCTCベースのベースラインモデルより一貫して優れており、最悪の言語エラーを47.1%、平均エラーを32.9%削減している。
CTC-DROは最小の計算コストでASRに適用でき、同様の課題で他の領域におけるグループ格差を減らすことができる。
関連論文リスト
- Modeling the Q-Diversity in a Min-max Play Game for Robust Optimization [61.39201891894024]
群分布的ロバスト最適化(群 DRO)は、事前定義された群に対する最悪の損失を最小限にすることができる。
グループDROフレームワークをQ-Diversityを提案して再構築する。
インタラクティブなトレーニングモードによって特徴付けられるQ-Diversityは、アノテーションからグループ識別を緩和し、直接パラメータ化を行う。
論文 参考訳(メタデータ) (2023-05-20T07:02:27Z) - Bitrate-Constrained DRO: Beyond Worst Case Robustness To Unknown Group
Shifts [122.08782633878788]
いくつかの堅牢なトレーニングアルゴリズム(例えば、グループDRO)は、グループシフトを専門とし、すべてのトレーニングポイントについてグループ情報を必要とする。
グループアノテーションを必要としない他の方法(CVaR DROなど)は、過度に保守的である。
低機能により実現された単純な群関数の精度を維持するモデルを学習する。
論文 参考訳(メタデータ) (2023-02-06T17:07:16Z) - AGRO: Adversarial Discovery of Error-prone groups for Robust
Optimization [109.91265884632239]
群分散ロバスト最適化(G-DRO)は、トレーニングデータに対する事前定義されたグループのセットに対する最悪の損失を最小限にすることができる。
本稿では、分散ロバスト最適化のためのAGRO -- Adversarial Group Discoveryを提案する。
AGROは、既知の最悪のグループの平均モデルパフォーマンスを8%向上させる。
論文 参考訳(メタデータ) (2022-12-02T00:57:03Z) - Focus on the Common Good: Group Distributional Robustness Follows [47.62596240492509]
本稿では,多様なグループ間で共有される特徴の学習を明示的に促進する,新しい,シンプルなアルゴリズムを提案する。
グループDROは、最低の正規化損失を持つグループに焦点を当て、代わりに、他のグループでもより良いパフォーマンスを実現するグループに焦点を当てるが、共有/共通機能を学ぶことにつながる可能性がある。
論文 参考訳(メタデータ) (2021-10-06T09:47:41Z) - Just Train Twice: Improving Group Robustness without Training Group
Information [101.84574184298006]
経験的リスク最小化による標準トレーニングは、特定のグループにおける平均的かつ低い精度で高い精度を達成するモデルを生成することができる。
群分布的ロバストな最適化 (group DRO) のような、最悪のグループ精度を達成する以前のアプローチでは、トレーニングポイントごとに高価なグループアノテーションが必要である。
本稿では,複数のエポックに対して標準的なERMモデルを訓練し,第1モデルが誤分類したトレーニング例を重み付けする第2モデルを訓練する,単純な2段階のアプローチであるJTTを提案する。
論文 参考訳(メタデータ) (2021-07-19T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。