論文の概要: "It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
- arxiv url: http://arxiv.org/abs/2504.09346v1
- Date: Sat, 12 Apr 2025 21:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:36.909335
- Title: "It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services
- Title(参考訳): 「私の表現ではない」:合成AI音声サービスにおけるアクセントバイアスとデジタル排他的排除について
- Authors: Shira Michel, Sufi Kaur, Sarah Elizabeth Gillespie, Jeffrey Gleason, Christo Wilson, Avijit Ghosh,
- Abstract要約: 本研究では、混合手法を用いて2つの合成AI音声サービス(SpeechifyとElevenLabs)を評価する。
以上の結果から,5つの地域,英語のアクセントにおける技術的特徴の相違が判明した。
現在の音声生成技術は、言語特権とアクセントに基づく差別を不注意に強化することができる。
- 参考スコア(独自算出の注目度): 3.8931913630405393
- License:
- Abstract: Recent advances in artificial intelligence (AI) speech generation and voice cloning technologies have produced naturalistic speech and accurate voice replication, yet their influence on sociotechnical systems across diverse accents and linguistic traits is not fully understood. This study evaluates two synthetic AI voice services (Speechify and ElevenLabs) through a mixed methods approach using surveys and interviews to assess technical performance and uncover how users' lived experiences influence their perceptions of accent variations in these speech technologies. Our findings reveal technical performance disparities across five regional, English-language accents and demonstrate how current speech generation technologies may inadvertently reinforce linguistic privilege and accent-based discrimination, potentially creating new forms of digital exclusion. Overall, our study highlights the need for inclusive design and regulation by providing actionable insights for developers, policymakers, and organizations to ensure equitable and socially responsible AI speech technologies.
- Abstract(参考訳): 近年の人工知能(AI)音声生成と音声クローニング技術の進歩は、自然言語と正確な音声複製を生み出しているが、様々なアクセントや言語特性にまたがる社会技術システムへの影響は、完全には理解されていない。
本研究では,2つの合成AI音声サービス(SpeechifyとElevenLabs)を,調査とインタビューを用いた混合手法を用いて評価し,ユーザの生活体験がこれらの音声技術におけるアクセント変動の知覚に与える影響を明らかにする。
本研究は,5つの地域・英語アクセントにまたがる技術的差異を明らかにするとともに,既存の音声生成技術が言語的特権とアクセントに基づく差別を不注意に強化し,新たなデジタル排除形態を創出する可能性を実証するものである。
全体として、当社の研究は、開発者、政策立案者、組織に対して、公平で社会的に責任のあるAI音声技術を保証するための実用的な洞察を提供することによって、包括的設計と規制の必要性を強調しています。
関連論文リスト
- Afrispeech-Dialog: A Benchmark Dataset for Spontaneous English Conversations in Healthcare and Beyond [0.0]
Afrispeech-Dialogは、医学的および非医学的アフリカ中心の英語会話を模擬した50のベンチマークデータセットである。
長音のアクセント付き音声に対して,最先端話者ダイアリゼーション(SOTA)とASRシステムを評価し,その性能をネイティブアクセントと比較し,10%以上の性能劣化を見出した。
論文 参考訳(メタデータ) (2025-02-06T10:33:07Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Speech Recognition Transformers: Topological-lingualism Perspective [5.874509965718588]
本稿では,音声のモータリティを指向したトランスフォーマー技術に関する包括的調査を行う。
本調査の主な内容は,(1)従来のASR,エンド・ツー・エンド・トランスフォーマー・エコシステム,(2)言語主義パラダイムによる音声の基本モデルなどである。
論文 参考訳(メタデータ) (2024-08-27T12:15:43Z) - Analyzing Speech Unit Selection for Textless Speech-to-Speech Translation [23.757896930482342]
本研究は、下流タスクの研究を通して選択プロセスについて考察する。
再生性能のよいユニットは、翻訳効率を高めるユニットと必ずしも相関しない。
論文 参考訳(メタデータ) (2024-07-08T08:53:26Z) - Accent Conversion in Text-To-Speech Using Multi-Level VAE and Adversarial Training [14.323313455208183]
包括的音声技術は、特定のアクセントを持つ人々のような特定のグループに対する偏見を消すことを目的としている。
本稿では,アクセント付き音声合成と変換に逆学習を用いたマルチレベル変分オートエンコーダを用いたTSモデルを提案する。
論文 参考訳(メタデータ) (2024-06-03T05:56:02Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - State-of-the-art in speaker recognition [0.0]
近年の音声技術の発展により、話者認識を改善する新しいツールが生み出されている。
話者認識は、あらゆる可能性がすでに検討されている技術とは程遠い。
論文 参考訳(メタデータ) (2022-02-23T11:49:09Z) - Systematic Inequalities in Language Technology Performance across the
World's Languages [94.65681336393425]
本稿では,言語技術のグローバルな有用性を評価するためのフレームワークを紹介する。
本分析では, ユーザ対応技術と言語的NLPタスクの両面において, より深く研究されている。
論文 参考訳(メタデータ) (2021-10-13T14:03:07Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。