Fugu-MT 論文翻訳(概要): Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations

論文の概要: Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations

arxiv url: http://arxiv.org/abs/2403.11209v1
Date: Sun, 17 Mar 2024 13:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-19 17:56:21.656250
Title: Creating an African American-Sounding TTS: Guidelines, Technical Challenges,and Surprising Evaluations
Title（参考訳）: アフリカン・アメリカン・サウンドTTSの作成 - ガイドライン, 技術的課題, そして予想される評価
Authors: Claudio Pinhanez, Raul Fernandez, Marcelo Grave, Julio Nogima, Ron Hoory,
Abstract要約: 我々は、教育を受け、専門的で、地域のアクセントのないアフリカ系アメリカ人女性のように聞こえることを目的とした、米国英語のテキスト・トゥ・スペーチ(TTS)システムを開発した。米国英語話者による2つの研究で、参加者は正しい人種をアフリカ系アメリカ人のTTSの声に当てはめられなかった。本研究は,非アフリカ系アメリカ人がアフリカ系アメリカ人の教育的,非言語的,専門的に聞こえる声を関連づけることができないことや,過度な偏見に起因している可能性が示唆された。
参考スコア（独自算出の注目度）: 6.076279198182169
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Representations of AI agents in user interfaces and robotics are predominantly White, not only in terms of facial and skin features, but also in the synthetic voices they use. In this paper we explore some unexpected challenges in the representation of race we found in the process of developing an U.S. English Text-to-Speech (TTS) system aimed to sound like an educated, professional, regional accent-free African American woman. The paper starts by presenting the results of focus groups with African American IT professionals where guidelines and challenges for the creation of a representative and appropriate TTS system were discussed and gathered, followed by a discussion about some of the technical difficulties faced by the TTS system developers. We then describe two studies with U.S. English speakers where the participants were not able to attribute the correct race to the African American TTS voice while overwhelmingly correctly recognizing the race of a White TTS system of similar quality. A focus group with African American IT workers not only confirmed the representativeness of the African American voice we built, but also suggested that the surprising recognition results may have been caused by the inability or the latent prejudice from non-African Americans to associate educated, non-vernacular, professionally-sounding voices to African American people.
Abstract（参考訳）: ユーザーインターフェイスやロボット工学におけるAIエージェントの表現は、顔や皮膚の特徴だけでなく、それらが使用する合成音声においても、主にホワイトである。本稿では,米国英語テキスト・トゥ・スペーチ(TTS)システムの開発過程において,人種表現における予期せぬ課題について考察する。論文は、代表的かつ適切なTSシステムを構築するためのガイドラインと課題が議論され、収集されたアフリカ系アメリカ人IT専門家によるフォーカスグループの結果を提示することから始まり、続いて、TSシステム開発者が直面している技術的困難について議論する。次に、米国英語話者を対象にした2つの研究を行い、参加者はアフリカ系アメリカ人のTTS音声に正しい人種を割り当てることができず、類似した品質のWhite TTSシステムの人種を圧倒的に正確に認識した。アフリカ系アメリカ人IT従事者によるフォーカスグループは、私たちが構築したアフリカ系アメリカ人の声の代表性を認めただけでなく、驚くべき認識結果が、アフリカ系アメリカ人以外のアメリカ人が、教育を受けていない専門的な声をアフリカ系アメリカ人の人々に与える能力の欠如や過度な偏見によって引き起こされた可能性があることを示唆した。

関連論文リスト

Evaluating the Usage of African-American Vernacular English in Large Language Models [5.242425502046959]
アフリカン・アメリカン・バーナクラ・イングリッシュ(AAVE)の言語モデル(LLM)の精度について検討する。 AAVEをネイティブに話す人間の使用法と比較する。多くの場合、ALMにおけるAAVEの使用法とヒトにおけるAAVEの使用法には大きな違いがあることが判明した。
論文参考訳（メタデータ） (2026-02-25T01:28:01Z)
AfriSpeech-MultiBench: A Verticalized Multidomain Multicountry Benchmark Suite for African Accented English ASR [2.6822781046552824]
AfriSpeech-MultiBenchは、10以上の国で100以上のアフリカ英語アクセントのドメイン固有の評価スイートである。オープン・クローズド・ユニモーダルASRとマルチモーダルLLMに基づく音声認識システムの多種多様なベンチマークを行った。オープンソースのASRモデルは、自然発話の文脈では優れているが、ノイズの多い非ネイティブ対話では劣化する。プロプライエタリなモデルはクリーンスピーチに高い精度を提供するが、国や領域によって大きく異なる。
論文参考訳（メタデータ） (2025-11-18T08:44:17Z)
Synthetic Voices, Real Threats: Evaluating Large Text-to-Speech Models in Generating Harmful Audio [63.18443674004945]
この研究は、TSシステムを利用して有害なコンテンツを含む音声を生成する、コンテンツ中心の脅威を探究する。 HARMGENは、これらの課題に対処する2つのファミリーにまとめられた5つの攻撃群である。
論文参考訳（メタデータ） (2025-11-14T03:00:04Z)
A Sociophonetic Analysis of Racial Bias in Commercial ASR Systems Using the Pacific Northwest English Corpus [6.361208877327219]
本稿では,4大商用自動音声認識(ASR)システムにおける人種バイアスの体系的評価について述べる。我々は,4つの民族的背景(アフリカ系アメリカ人,コーカサス系アメリカ人,チカンX,ヤカマ)から話者間での転写精度を分析し,社会音の変動がシステム性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-10-26T02:19:40Z)
"It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services [3.8931913630405393]
本研究では、混合手法を用いて2つの合成AI音声サービス(SpeechifyとElevenLabs)を評価する。以上の結果から,5つの地域,英語のアクセントにおける技術的特徴の相違が判明した。現在の音声生成技術は、言語特権とアクセントに基づく差別を不注意に強化することができる。
論文参考訳（メタデータ） (2025-04-12T21:31:22Z)
Finding A Voice: Exploring the Potential of African American Dialect and Voice Generation for Chatbots [9.868899242620637]
本研究は、アフリカ系アメリカ人コミュニティに役立てるために、アフリカ系アメリカ人英語(AAE)を仮想エージェントに統合することに焦点を当てる。我々は,大規模言語モデルと音声合成技術を用いて,テキストベースおよび音声チャットボットを開発した。
論文参考訳（メタデータ） (2025-01-07T00:07:01Z)
One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [68.33068005789116]
本研究は,大言語モデル(LLM)の標準推論タスクにおける方言処理における妥当性と頑健さを客観的に評価することを目的とした最初の研究である。我々は、コンピュータサイエンスのバックグラウンドの専門家を含むAAVEスピーカーを雇い、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えます。以上の結果から,これら広く使用されているモデルのほとんどは,AAVEにおけるクエリに対する不安定さと不公平さを顕著に示していることがわかった。
論文参考訳（メタデータ） (2024-10-14T18:44:23Z)
Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。 Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文参考訳（メタデータ） (2024-10-03T17:04:48Z)
Unmasking the Uniqueness: A Glimpse into Age-Invariant Face Recognition of Indigenous African Faces [0.0]
Age-Invariant Face Recognition (AIFR) は、アフリカと比較してヨーロッパ、アメリカ、アジアでかなりの研究成果を上げている。この研究は、顔画像解析研究においてアフリカ民族の誤表現を減らすために、アフリカ先住民の顔のためのAIFRシステムを開発した。
論文参考訳（メタデータ） (2024-08-13T10:54:10Z)
1000 African Voices: Advancing inclusive multi-speaker multi-accent speech synthesis [1.7606944034136094]
Afro-TTSは、最初のパン・アフリカ英語アクセント音声合成システムである。話者は自然さとアクセントを保ち、新しい声を作り出すことができる。
論文参考訳（メタデータ） (2024-06-17T16:46:10Z)
Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文参考訳（メタデータ） (2024-06-03T05:56:02Z)
Dialect prejudice predicts AI decisions about people's character, employability, and criminality [36.448157493217344]
言語モデルが方言偏見の形で隠蔽的人種差別を具現化することを示す。我々の発見は、言語技術の公正かつ安全な利用に、はるかに影響している。
論文参考訳（メタデータ） (2024-03-01T18:43:09Z)
AfroDigits: A Community-Driven Spoken Digit Dataset for African Languages [32.23306825605942]
AfroDigitsは、アフリカ言語のための音声桁の最小限のデータセットである。 6つのアフリカ言語で音声桁分類実験を行う。 AfroDigitsはアフリカ言語向けの最初のオーディオディジットデータセットである。
論文参考訳（メタデータ） (2023-03-22T14:09:20Z)
Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文参考訳（メタデータ） (2022-10-27T08:10:44Z)
MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文参考訳（メタデータ） (2022-10-22T08:53:14Z)
VALUE: Understanding Dialect Disparity in NLU [50.35526025326337]
アフリカ・アメリカン・バーナクラ・イングリッシュ(AAVE)の11つの特徴に関するルールを構築した。言語的アクセプタビリティ判断により,各特徴変換の検証を行うために,流線型AAVE話者を募集する。実験により、これらの新しい方言の特徴がモデル性能の低下につながることが示された。
論文参考訳（メタデータ） (2022-04-06T18:30:56Z)
A study on native American English speech recognition by Indian listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文参考訳（メタデータ） (2021-12-08T07:43:38Z)
It's Morphin' Time! Combating Linguistic Discrimination with Inflectional Perturbations [68.16751625956243]
完全な標準英語コーパスのみが、非標準言語的背景から少数民族を区別するためにニューラルネットワークを前提としている。我々は、単語の屈折形態を乱して、可塑性で意味論的に類似した逆の例を作る。
論文参考訳（メタデータ） (2020-05-09T04:01:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。