論文の概要: Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations
- arxiv url: http://arxiv.org/abs/2403.11209v1
- Date: Sun, 17 Mar 2024 13:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:56:21.656250
- Title: Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations
- Title(参考訳): アフリカン・アメリカン・サウンドTTSの作成 - ガイドライン, 技術的課題, そして予想される評価
- Authors: Claudio Pinhanez, Raul Fernandez, Marcelo Grave, Julio Nogima, Ron Hoory,
- Abstract要約: 我々は、教育を受け、専門的で、地域のアクセントのないアフリカ系アメリカ人女性のように聞こえることを目的とした、米国英語のテキスト・トゥ・スペーチ(TTS)システムを開発した。
米国英語話者による2つの研究で、参加者は正しい人種をアフリカ系アメリカ人のTTSの声に当てはめられなかった。
本研究は,非アフリカ系アメリカ人がアフリカ系アメリカ人の教育的,非言語的,専門的に聞こえる声を関連づけることができないことや,過度な偏見に起因している可能性が示唆された。
- 参考スコア(独自算出の注目度): 6.076279198182169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representations of AI agents in user interfaces and robotics are predominantly White, not only in terms of facial and skin features, but also in the synthetic voices they use. In this paper we explore some unexpected challenges in the representation of race we found in the process of developing an U.S. English Text-to-Speech (TTS) system aimed to sound like an educated, professional, regional accent-free African American woman. The paper starts by presenting the results of focus groups with African American IT professionals where guidelines and challenges for the creation of a representative and appropriate TTS system were discussed and gathered, followed by a discussion about some of the technical difficulties faced by the TTS system developers. We then describe two studies with U.S. English speakers where the participants were not able to attribute the correct race to the African American TTS voice while overwhelmingly correctly recognizing the race of a White TTS system of similar quality. A focus group with African American IT workers not only confirmed the representativeness of the African American voice we built, but also suggested that the surprising recognition results may have been caused by the inability or the latent prejudice from non-African Americans to associate educated, non-vernacular, professionally-sounding voices to African American people.
- Abstract(参考訳): ユーザーインターフェイスやロボット工学におけるAIエージェントの表現は、顔や皮膚の特徴だけでなく、それらが使用する合成音声においても、主にホワイトである。
本稿では,米国英語テキスト・トゥ・スペーチ(TTS)システムの開発過程において,人種表現における予期せぬ課題について考察する。
論文は、代表的かつ適切なTSシステムを構築するためのガイドラインと課題が議論され、収集されたアフリカ系アメリカ人IT専門家によるフォーカスグループの結果を提示することから始まり、続いて、TSシステム開発者が直面している技術的困難について議論する。
次に、米国英語話者を対象にした2つの研究を行い、参加者はアフリカ系アメリカ人のTTS音声に正しい人種を割り当てることができず、類似した品質のWhite TTSシステムの人種を圧倒的に正確に認識した。
アフリカ系アメリカ人IT従事者によるフォーカスグループは、私たちが構築したアフリカ系アメリカ人の声の代表性を認めただけでなく、驚くべき認識結果が、アフリカ系アメリカ人以外のアメリカ人が、教育を受けていない専門的な声をアフリカ系アメリカ人の人々に与える能力の欠如や過度な偏見によって引き起こされた可能性があることを示唆した。
関連論文リスト
- Dialect prejudice predicts AI decisions about people's character,
employability, and criminality [36.448157493217344]
言語モデルが方言偏見の形で隠蔽的人種差別を具現化することを示す。
我々の発見は、言語技術の公正かつ安全な利用に、はるかに影響している。
論文 参考訳(メタデータ) (2024-03-01T18:43:09Z) - AfroDigits: A Community-Driven Spoken Digit Dataset for African
Languages [32.23306825605942]
AfroDigitsは、アフリカ言語のための音声桁の最小限のデータセットである。
6つのアフリカ言語で音声桁分類実験を行う。
AfroDigitsはアフリカ言語向けの最初のオーディオディジットデータセットである。
論文 参考訳(メタデータ) (2023-03-22T14:09:20Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Towards a Deep Multi-layered Dialectal Language Analysis: A Case Study
of African-American English [0.20305676256390934]
メインストリーム・アメリカン・イングリッシュ(MAE)で訓練された音声タグは、アフリカ系アメリカ人・イングリッシュ(AAE)に適用した場合、解釈不能な結果をもたらす
本研究では,AAE話者の行動と言語利用の理解を深めるために,ループ型ヒューマン・イン・ザ・ループのパラダイムを取り入れた。
論文 参考訳(メタデータ) (2022-06-03T01:05:58Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - AI and Blackness: Towards moving beyond bias and representation [0.8223798883838329]
AI倫理は人種に基づく表現と偏見という概念を超えてはならないと我々は主張する。
AIにおけるアンチブラックネスは、AIシステムの設計、開発、デプロイの基盤を提供する存在論的空間の検査をもっと必要とします。
論文 参考訳(メタデータ) (2021-11-05T18:24:54Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。