論文の概要: Unveiling Biases while Embracing Sustainability: Assessing the Dual Challenges of Automatic Speech Recognition Systems
- arxiv url: http://arxiv.org/abs/2503.00907v1
- Date: Sun, 02 Mar 2025 14:17:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:15:44.624732
- Title: Unveiling Biases while Embracing Sustainability: Assessing the Dual Challenges of Automatic Speech Recognition Systems
- Title(参考訳): 持続可能性を考慮した解離バイアス:自動音声認識システムにおける二重課題の評価
- Authors: Ajinkya Kulkarni, Atharva Kulkarni, Miguel Couceiro, Isabel Trancoso,
- Abstract要約: 本稿では,自動音声認識(ASR)システム,すなわちWhisperとMassively Multilingual Speech(MMS)のバイアスと持続可能性に着目した検討を行う。
我々は、性別、アクセント、年齢グループに対するASRバイアスと、下流タスクに対するそれらの影響を分析する。
さらに,ASRシステムの環境影響について検討し,炭素排出量とエネルギー消費に対する大規模音響モデルの適用について検討した。
- 参考スコア(独自算出の注目度): 14.983016580257031
- License:
- Abstract: In this paper, we present a bias and sustainability focused investigation of Automatic Speech Recognition (ASR) systems, namely Whisper and Massively Multilingual Speech (MMS), which have achieved state-of-the-art (SOTA) performances. Despite their improved performance in controlled settings, there remains a critical gap in understanding their efficacy and equity in real-world scenarios. We analyze ASR biases w.r.t. gender, accent, and age group, as well as their effect on downstream tasks. In addition, we examine the environmental impact of ASR systems, scrutinizing the use of large acoustic models on carbon emission and energy consumption. We also provide insights into our empirical analyses, offering a valuable contribution to the claims surrounding bias and sustainability in ASR systems.
- Abstract(参考訳): 本稿では, 音声認識システムであるWhisperとMassively Multilingual Speech(MMS)について, バイアスと持続可能性に着目した検討を行った。
コントロールされた環境でのパフォーマンスは改善されているが、現実のシナリオにおける有効性とエクイティを理解する上で、依然として重大なギャップがある。
我々は、性別、アクセント、年齢グループに対するASRバイアスと、下流タスクに対するそれらの影響を分析する。
さらに,ASRシステムの環境影響について検討し,炭素排出量とエネルギー消費に対する大規模音響モデルの適用について検討した。
また、経験分析に関する洞察を提供し、ASRシステムにおけるバイアスと持続可能性に関する主張に貴重な貢献を提供する。
関連論文リスト
- From Efficiency Gains to Rebound Effects: The Problem of Jevons' Paradox in AI's Polarized Environmental Debate [69.05573887799203]
この議論の多くは、大きな間接効果に対処することなく直接的影響に集中している。
本稿では,Jevonsのパラドックス問題がどのようにAIに適用され,効率向上がパラドックス的に消費増加を促すかを検討する。
これらの2次の影響を理解するには、ライフサイクルアセスメントと社会経済分析を組み合わせた学際的アプローチが必要であると論じる。
論文 参考訳(メタデータ) (2025-01-27T22:45:06Z) - Addressing the sustainable AI trilemma: a case study on LLM agents and RAG [7.6212949300713015]
大規模言語モデル(LLM)は重要な機能を示しているが、その広範なデプロイメントとより高度なアプリケーションによって、重要な持続可能性の課題が提起されている。
本稿では、持続可能なAIトリレムマの概念を提案し、AI能力、デジタルエクイティ、環境サステナビリティの緊張関係を強調する。
論文 参考訳(メタデータ) (2025-01-14T17:21:16Z) - Reexamining Racial Disparities in Automatic Speech Recognition Performance: The Role of Confounding by Provenance [7.882996636086014]
自動音声認識(ASR)モデルとその使用法は公平かつ公平であることが重要である。
この研究は、現在の最先端のニューラルネットワークベースのASRシステムの性能を調べることによって、この格差の根底にある要因を理解することを目的としている。
論文 参考訳(メタデータ) (2024-07-19T02:14:17Z) - Layer-Wise Analysis of Self-Supervised Acoustic Word Embeddings: A Study
on Speech Emotion Recognition [54.952250732643115]
連続表現から派生した長さの固定長特徴である音響単語埋め込み(AWE)について検討し,その利点について検討した。
AWEは以前、音響的識別可能性の把握に有用であることを示した。
以上の結果から,AWEが伝達する音響的文脈が明らかになり,高い競争力を持つ音声認識精度が示された。
論文 参考訳(メタデータ) (2024-02-04T21:24:54Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - A Comparative Study of Machine Learning Algorithms for Anomaly Detection
in Industrial Environments: Performance and Environmental Impact [62.997667081978825]
本研究は,環境の持続可能性を考慮した高性能機械学習モデルの要求に応えることを目的としている。
Decision TreesやRandom Forestsといった従来の機械学習アルゴリズムは、堅牢な効率性とパフォーマンスを示している。
しかし, 資源消費の累積増加にもかかわらず, 最適化された構成で優れた結果が得られた。
論文 参考訳(メタデータ) (2023-07-01T15:18:00Z) - On the Efficacy and Noise-Robustness of Jointly Learned Speech Emotion
and Automatic Speech Recognition [6.006652562747009]
低リソース環境下でのASR-SER共同学習手法について検討する。
共同学習は、ASRワードエラー率(WER)とSER分類の精度をそれぞれ10.7%と2.3%改善することができる。
全体として、共同ASR-SERアプローチは独立したASRとSERアプローチよりも耐雑音性のあるモデルとなった。
論文 参考訳(メタデータ) (2023-05-21T18:52:21Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - Fusing ASR Outputs in Joint Training for Speech Emotion Recognition [14.35400087127149]
共同学習音声認識(SER)のためのパイプラインに自動音声認識(ASR)出力を融合する手法を提案する。
共同ASR-SERトレーニングでは、階層的コアテンション融合アプローチを用いて、ASRとテキストの出力の両方を組み込むことで、SERの性能が向上する。
また,IEMOCAPにおける単語誤り率解析や,ASRとSERの関係をよりよく理解するために,Wav2vec 2.0モデルの層差解析も提案する。
論文 参考訳(メタデータ) (2021-10-29T11:21:17Z) - Dual Causal/Non-Causal Self-Attention for Streaming End-to-End Speech
Recognition [58.69803243323346]
注意に基づくエンドツーエンド自動音声認識(ASR)システムは、最近、多くのタスクに対する最先端の結果を実証している。
しかし、自己注意および注意に基づくエンコーダデコーダモデルの応用は、ASRのストリーミングでは依然として困難である。
二重因果的/非因果的自己注意アーキテクチャを提案するが、これは制限された自己意識とは対照的に、全体的なコンテキストが単一のレイヤのルックアヘッドを超えて成長することを妨げている。
論文 参考訳(メタデータ) (2021-07-02T20:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。