論文の概要: Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations
- arxiv url: http://arxiv.org/abs/2403.11209v1
- Date: Sun, 17 Mar 2024 13:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 17:56:21.656250
- Title: Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations
- Title(参考訳): アフリカン・アメリカン・サウンドTTSの作成 - ガイドライン, 技術的課題, そして予想される評価
- Authors: Claudio Pinhanez, Raul Fernandez, Marcelo Grave, Julio Nogima, Ron Hoory,
- Abstract要約: 我々は、教育を受け、専門的で、地域のアクセントのないアフリカ系アメリカ人女性のように聞こえることを目的とした、米国英語のテキスト・トゥ・スペーチ(TTS)システムを開発した。
米国英語話者による2つの研究で、参加者は正しい人種をアフリカ系アメリカ人のTTSの声に当てはめられなかった。
本研究は,非アフリカ系アメリカ人がアフリカ系アメリカ人の教育的,非言語的,専門的に聞こえる声を関連づけることができないことや,過度な偏見に起因している可能性が示唆された。
- 参考スコア(独自算出の注目度): 6.076279198182169
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representations of AI agents in user interfaces and robotics are predominantly White, not only in terms of facial and skin features, but also in the synthetic voices they use. In this paper we explore some unexpected challenges in the representation of race we found in the process of developing an U.S. English Text-to-Speech (TTS) system aimed to sound like an educated, professional, regional accent-free African American woman. The paper starts by presenting the results of focus groups with African American IT professionals where guidelines and challenges for the creation of a representative and appropriate TTS system were discussed and gathered, followed by a discussion about some of the technical difficulties faced by the TTS system developers. We then describe two studies with U.S. English speakers where the participants were not able to attribute the correct race to the African American TTS voice while overwhelmingly correctly recognizing the race of a White TTS system of similar quality. A focus group with African American IT workers not only confirmed the representativeness of the African American voice we built, but also suggested that the surprising recognition results may have been caused by the inability or the latent prejudice from non-African Americans to associate educated, non-vernacular, professionally-sounding voices to African American people.
- Abstract(参考訳): ユーザーインターフェイスやロボット工学におけるAIエージェントの表現は、顔や皮膚の特徴だけでなく、それらが使用する合成音声においても、主にホワイトである。
本稿では,米国英語テキスト・トゥ・スペーチ(TTS)システムの開発過程において,人種表現における予期せぬ課題について考察する。
論文は、代表的かつ適切なTSシステムを構築するためのガイドラインと課題が議論され、収集されたアフリカ系アメリカ人IT専門家によるフォーカスグループの結果を提示することから始まり、続いて、TSシステム開発者が直面している技術的困難について議論する。
次に、米国英語話者を対象にした2つの研究を行い、参加者はアフリカ系アメリカ人のTTS音声に正しい人種を割り当てることができず、類似した品質のWhite TTSシステムの人種を圧倒的に正確に認識した。
アフリカ系アメリカ人IT従事者によるフォーカスグループは、私たちが構築したアフリカ系アメリカ人の声の代表性を認めただけでなく、驚くべき認識結果が、アフリカ系アメリカ人以外のアメリカ人が、教育を受けていない専門的な声をアフリカ系アメリカ人の人々に与える能力の欠如や過度な偏見によって引き起こされた可能性があることを示唆した。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Unmasking the Uniqueness: A Glimpse into Age-Invariant Face Recognition of Indigenous African Faces [0.0]
Age-Invariant Face Recognition (AIFR) は、アフリカと比較してヨーロッパ、アメリカ、アジアでかなりの研究成果を上げている。
この研究は、顔画像解析研究においてアフリカ民族の誤表現を減らすために、アフリカ先住民の顔のためのAIFRシステムを開発した。
論文 参考訳(メタデータ) (2024-08-13T10:54:10Z) - 1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis [1.7606944034136094]
Afro-TTSは、最初のパン・アフリカ英語アクセント音声合成システムである。
話者は自然さとアクセントを保ち、新しい声を作り出すことができる。
論文 参考訳(メタデータ) (2024-06-17T16:46:10Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Dialect prejudice predicts AI decisions about people's character,
employability, and criminality [36.448157493217344]
言語モデルが方言偏見の形で隠蔽的人種差別を具現化することを示す。
我々の発見は、言語技術の公正かつ安全な利用に、はるかに影響している。
論文 参考訳(メタデータ) (2024-03-01T18:43:09Z) - AfroDigits: A Community-Driven Spoken Digit Dataset for African
Languages [32.23306825605942]
AfroDigitsは、アフリカ言語のための音声桁の最小限のデータセットである。
6つのアフリカ言語で音声桁分類実験を行う。
AfroDigitsはアフリカ言語向けの最初のオーディオディジットデータセットである。
論文 参考訳(メタデータ) (2023-03-22T14:09:20Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。
言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。
実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文 参考訳(メタデータ) (2022-04-06T18:30:56Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - It's Morphin' Time! Combating Linguistic Discrimination with
Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。
我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文 参考訳(メタデータ) (2020-05-09T04:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。