論文の概要: "It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
- arxiv url: http://arxiv.org/abs/2504.09346v1
- Date: Sat, 12 Apr 2025 21:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 08:00:36.534647
- Title: "It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
- Title(参考訳): 「私の表現ではない」:合成AI音声サービスにおけるアクセントバイアスとデジタル排他的排除について
- Authors: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh,
- Abstract要約: 本研究では、混合手法を用いて2つの合成AI音声サービス(SpeechifyとElevenLabs)を評価する。
以上の結果から,5つの地域,英語のアクセントにおける技術的特徴の相違が判明した。
現在の音声生成技術は、言語特権とアクセントに基づく差別を不注意に強化することができる。
- 参考スコア(独自算出の注目度): 3.8931913630405393
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in artificial intelligence (AI) speech generation and voice cloning technologies have produced naturalistic speech and accurate voice replication, yet their influence on sociotechnical systems across diverse accents and linguistic traits is not fully understood. This study evaluates two synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods approach using surveys and interviews to assess technical performance and uncover how users' lived experiences influence their perceptions of accent variations in these speech technologies. Our findings reveal technical performance disparities across five regional, English-language accents and demonstrate how current speech generation technologies may inadvertently reinforce linguistic privilege and accent-based discrimination, potentially creating new forms of digital exclusion. Overall, our study highlights the need for inclusive design and regulation by providing actionable insights for developers, policymakers, and organizations to ensure equitable and socially responsible AI speech technologies.
- Abstract(参考訳): 近年の人工知能(AI)音声生成と音声クローニング技術の進歩は、自然言語と正確な音声複製を生み出しているが、様々なアクセントや言語特性にまたがる社会技術システムへの影響は、完全には理解されていない。
本研究では,2つの合成AI音声サービス(SpeechifyとElevenLabs)を,調査とインタビューを用いた混合手法を用いて評価し,ユーザの生活体験がこれらの音声技術におけるアクセント変動の知覚に与える影響を明らかにする。
本研究は,5つの地域・英語アクセントにまたがる技術的差異を明らかにするとともに,既存の音声生成技術が言語的特権とアクセントに基づく差別を不注意に強化し,新たなデジタル排除形態を創出する可能性を実証するものである。
全体として、当社の研究は、開発者、政策立案者、組織に対して、公平で社会的に責任のあるAI音声技術を保証するための実用的な洞察を提供することによって、包括的設計と規制の必要性を強調しています。
関連論文リスト
- Generative Adversarial Network based Voice Conversion: Techniques, Challenges, and Recent Advancements [12.716872085463887]
GAN(Generative Adversarial Network)ベースのアプローチは,その強力な特徴マッピング能力と,高度に現実的な音声を生成する可能性に対して,大きな注目を集めている。
本稿では,音声変換環境の包括的分析を行い,重要な技術,重要な課題,現場におけるGANの変容的影響を明らかにする。
全体として、この研究は、音声変換技術における最先端のSOTA(State-of-the-art)の推進を目指す研究者、開発者、実践者にとって不可欠なリソースとなっている。
論文 参考訳(メタデータ) (2025-04-27T11:22:21Z) - Enhancing nonnative speech perception and production through an AI-powered application [0.0]
本研究の目的は、AIを利用したモバイルアプリケーションによるトレーニングが、非ネイティブな音の知覚と生産に与える影響を検討することである。
この介入には、英語の母音を特徴とする録音タスクと発音フィードバックと練習を取り入れたSpeakometer Mobileアプリケーションによるトレーニングが含まれていた。
その結果,介入後の判別精度と目標コントラストの生成に有意な改善が認められた。
論文 参考訳(メタデータ) (2025-03-18T10:05:12Z) - Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond [0.0]
Afrispeech-Dialogは、医学的および非医学的アフリカ中心の英語会話を模擬した50のベンチマークデータセットである。
長音のアクセント付き音声に対して,最先端話者ダイアリゼーション(SOTA)とASRシステムを評価し,その性能をネイティブアクセントと比較し,10%以上の性能劣化を見出した。
論文 参考訳(メタデータ) (2025-02-06T10:33:07Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - State-of-the-art in speaker recognition [0.0]
近年の音声技術の発展により、話者認識を改善する新しいツールが生み出されている。
話者認識は、あらゆる可能性がすでに検討されている技術とは程遠い。
論文 参考訳(メタデータ) (2022-02-23T11:49:09Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。