Fugu-MT 論文翻訳(概要): Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review

論文の概要: Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review

arxiv url: http://arxiv.org/abs/2211.09511v1
Date: Thu, 17 Nov 2022 13:15:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 17:04:11.069916
Title: Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review
Title（参考訳）: ASRシステム! なぜあなたはもっと包括的でないのか? 自動音声認識システムのバイアスと提案バイアス緩和手法文献レビュー
Authors: Mikel K. Ngueajio and Gloria Washington
Abstract要約: 我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speech is the fundamental means of communication between humans. The advent of AI and sophisticated speech technologies have led to the rapid proliferation of human-to-computer-based interactions, fueled primarily by Automatic Speech Recognition (ASR) systems. ASR systems normally take human speech in the form of audio and convert it into words, but for some users, it cannot decode the speech, and any output text is filled with errors that are incomprehensible to the human reader. These systems do not work equally for everyone and actually hinder the productivity of some users. In this paper, we present research that addresses ASR biases against gender, race, and the sick and disabled, while exploring studies that propose ASR debiasing techniques for mitigating these discriminations. We also discuss techniques for designing a more accessible and inclusive ASR technology. For each approach surveyed, we also provide a summary of the investigation and methods applied, the ASR systems and corpora used, and the research findings, and highlight their strengths and/or weaknesses. Finally, we propose future opportunities for Natural Language Processing researchers to explore in the next level creation of ASR technologies.
Abstract（参考訳）: 音声は人間間のコミュニケーションの基本的な手段である。 AIと高度な音声技術の出現は、主に自動音声認識(ASR)システムによって、人間とコンピュータによる対話の急速な普及につながった。 ASRシステムは通常、音声の形式で人間の音声を単語に変換するが、一部のユーザーにとっては音声を復号することはできず、出力テキストは人間の読み手に理解できない誤りで満たされている。これらのシステムは全員に等しく機能せず、実際に一部のユーザの生産性を妨げる。本稿では, 性別, 人種, 障害者に対するASR偏見に対処する研究と, 差別緩和のためのASR脱バイアス技術を提案する研究について述べる。また、よりアクセシブルで包括的なASR技術の設計手法についても論じる。調査した各アプローチについて、適用された調査方法、使用したASRシステムとコーパス、および研究結果について概説し、その強度や弱点を強調した。最後に、自然言語処理研究者がasr技術を次段階に作り出すための将来の機会を提案する。

関連論文リスト

SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Speech Emotion Recognition with ASR Transcripts: A Comprehensive Study on Word Error Rate and Fusion Techniques [17.166092544686553]
本研究では,3つのよく知られたコーパス上の11種類のモデルから,単語誤り率(WER)の異なるASR文字を用いた音声感情認識のベンチマークを行った。本稿では, ASR 誤り訂正とモダリティゲート融合を統合した ASR 誤り処理フレームワークを提案する。
論文参考訳（メタデータ） (2024-06-12T15:59:25Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。 TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文参考訳（メタデータ） (2022-12-16T20:30:33Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
Can Visual Context Improve Automatic Speech Recognition for an Embodied Agent? [3.7311680121118345]
本稿では,視覚的コンテキストを取り入れた新しいデコーダバイアス手法を提案する。修正されていないASRシステムからWERを59%削減する。
論文参考訳（メタデータ） (2022-10-21T11:16:05Z)
Neural Approaches to Conversational Information Retrieval [94.77863916314979]
会話情報検索(CIR)システムは、会話インタフェースを備えた情報検索(IR)システムである。近年のディープラーニングの進歩により、自然言語処理(NLP)と会話型AIが大幅に改善されている。この本は、ここ数年で開発された神経アプローチに焦点を当てた、CIRの最近の進歩を調査します。
論文参考訳（メタデータ） (2022-01-13T19:04:59Z)
Automatic Speech Recognition using limited vocabulary: A survey [0.0]
アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。本稿では,ASRシステムの背後にあるメカニズムや技術,ツール,プロジェクト,最近のコントリビューション,さらには将来的な方向性を,限定語彙を用いて包括的に把握することを目的とする。
論文参考訳（メタデータ） (2021-08-23T15:51:41Z)
Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文参考訳（メタデータ） (2021-03-28T12:52:03Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。