論文の概要: Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review
- arxiv url: http://arxiv.org/abs/2211.09511v1
- Date: Thu, 17 Nov 2022 13:15:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 17:04:11.069916
- Title: Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review
- Title(参考訳): ASRシステム!
なぜあなたはもっと包括的でないのか?
自動音声認識システムのバイアスと提案バイアス緩和手法
文献レビュー
- Authors: Mikel K. Ngueajio and Gloria Washington
- Abstract要約: 我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech is the fundamental means of communication between humans. The advent
of AI and sophisticated speech technologies have led to the rapid proliferation
of human-to-computer-based interactions, fueled primarily by Automatic Speech
Recognition (ASR) systems. ASR systems normally take human speech in the form
of audio and convert it into words, but for some users, it cannot decode the
speech, and any output text is filled with errors that are incomprehensible to
the human reader. These systems do not work equally for everyone and actually
hinder the productivity of some users. In this paper, we present research that
addresses ASR biases against gender, race, and the sick and disabled, while
exploring studies that propose ASR debiasing techniques for mitigating these
discriminations. We also discuss techniques for designing a more accessible and
inclusive ASR technology. For each approach surveyed, we also provide a summary
of the investigation and methods applied, the ASR systems and corpora used, and
the research findings, and highlight their strengths and/or weaknesses.
Finally, we propose future opportunities for Natural Language Processing
researchers to explore in the next level creation of ASR technologies.
- Abstract(参考訳): 音声は人間間のコミュニケーションの基本的な手段である。
AIと高度な音声技術の出現は、主に自動音声認識(ASR)システムによって、人間とコンピュータによる対話の急速な普及につながった。
ASRシステムは通常、音声の形式で人間の音声を単語に変換するが、一部のユーザーにとっては音声を復号することはできず、出力テキストは人間の読み手に理解できない誤りで満たされている。
これらのシステムは全員に等しく機能せず、実際に一部のユーザの生産性を妨げる。
本稿では, 性別, 人種, 障害者に対するASR偏見に対処する研究と, 差別緩和のためのASR脱バイアス技術を提案する研究について述べる。
また、よりアクセシブルで包括的なASR技術の設計手法についても論じる。
調査した各アプローチについて、適用された調査方法、使用したASRシステムとコーパス、および研究結果について概説し、その強度や弱点を強調した。
最後に、自然言語処理研究者がasr技術を次段階に作り出すための将来の機会を提案する。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。
本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-12T15:59:25Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Can Visual Context Improve Automatic Speech Recognition for an Embodied
Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。
修正されていないASRシステムからWERを59%削減する。
論文 参考訳(メタデータ) (2022-10-21T11:16:05Z) - Neural Approaches to Conversational Information Retrieval [94.77863916314979]
会話情報検索(CIR)システムは、会話インタフェースを備えた情報検索(IR)システムである。
近年のディープラーニングの進歩により、自然言語処理(NLP)と会話型AIが大幅に改善されている。
この本は、ここ数年で開発された神経アプローチに焦点を当てた、CIRの最近の進歩を調査します。
論文 参考訳(メタデータ) (2022-01-13T19:04:59Z) - Automatic Speech Recognition using limited vocabulary: A survey [0.0]
アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。
本稿では,ASRシステムの背後にあるメカニズムや技術,ツール,プロジェクト,最近のコントリビューション,さらには将来的な方向性を,限定語彙を用いて包括的に把握することを目的とする。
論文 参考訳(メタデータ) (2021-08-23T15:51:41Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。