論文の概要: Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review
- arxiv url: http://arxiv.org/abs/2211.09511v1
- Date: Thu, 17 Nov 2022 13:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 17:04:11.069916
- Title: Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review
- Title(参考訳): ASRシステム!
なぜあなたはもっと包括的でないのか?
自動音声認識システムのバイアスと提案バイアス緩和手法
文献レビュー
- Authors: Mikel K. Ngueajio and Gloria Washington
- Abstract要約: 我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is the fundamental means of communication between humans. The advent
of AI and sophisticated speech technologies have led to the rapid proliferation
of human-to-computer-based interactions, fueled primarily by Automatic Speech
Recognition (ASR) systems. ASR systems normally take human speech in the form
of audio and convert it into words, but for some users, it cannot decode the
speech, and any output text is filled with errors that are incomprehensible to
the human reader. These systems do not work equally for everyone and actually
hinder the productivity of some users. In this paper, we present research that
addresses ASR biases against gender, race, and the sick and disabled, while
exploring studies that propose ASR debiasing techniques for mitigating these
discriminations. We also discuss techniques for designing a more accessible and
inclusive ASR technology. For each approach surveyed, we also provide a summary
of the investigation and methods applied, the ASR systems and corpora used, and
the research findings, and highlight their strengths and/or weaknesses.
Finally, we propose future opportunities for Natural Language Processing
researchers to explore in the next level creation of ASR technologies.
- Abstract(参考訳): 音声は人間間のコミュニケーションの基本的な手段である。
AIと高度な音声技術の出現は、主に自動音声認識(ASR)システムによって、人間とコンピュータによる対話の急速な普及につながった。
ASRシステムは通常、音声の形式で人間の音声を単語に変換するが、一部のユーザーにとっては音声を復号することはできず、出力テキストは人間の読み手に理解できない誤りで満たされている。
これらのシステムは全員に等しく機能せず、実際に一部のユーザの生産性を妨げる。
本稿では, 性別, 人種, 障害者に対するASR偏見に対処する研究と, 差別緩和のためのASR脱バイアス技術を提案する研究について述べる。
また、よりアクセシブルで包括的なASR技術の設計手法についても論じる。
調査した各アプローチについて、適用された調査方法、使用したASRシステムとコーパス、および研究結果について概説し、その強度や弱点を強調した。
最後に、自然言語処理研究者がasr技術を次段階に作り出すための将来の機会を提案する。
関連論文リスト
- A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Can Visual Context Improve Automatic Speech Recognition for an Embodied
Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。
修正されていないASRシステムからWERを59%削減する。
論文 参考訳(メタデータ) (2022-10-21T11:16:05Z) - Neural Approaches to Conversational Information Retrieval [94.77863916314979]
会話情報検索(CIR)システムは、会話インタフェースを備えた情報検索(IR)システムである。
近年のディープラーニングの進歩により、自然言語処理(NLP)と会話型AIが大幅に改善されている。
この本は、ここ数年で開発された神経アプローチに焦点を当てた、CIRの最近の進歩を調査します。
論文 参考訳(メタデータ) (2022-01-13T19:04:59Z) - Automatic Speech Recognition using limited vocabulary: A survey [0.0]
アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。
本稿では,ASRシステムの背後にあるメカニズムや技術,ツール,プロジェクト,最近のコントリビューション,さらには将来的な方向性を,限定語彙を用いて包括的に把握することを目的とする。
論文 参考訳(メタデータ) (2021-08-23T15:51:41Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。