論文の概要: Unheard in the Digital Age: Rethinking AI Bias and Speech Diversity
- arxiv url: http://arxiv.org/abs/2601.18641v1
- Date: Mon, 26 Jan 2026 16:12:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.928276
- Title: Unheard in the Digital Age: Rethinking AI Bias and Speech Diversity
- Title(参考訳): AIバイアスと音声の多様性を再考するデジタル時代
- Authors: Onyedikachi Hope Amaechi-Okorie, Branislav Radeljic,
- Abstract要約: 言論は現代社会において最も目に見えないが見過ごされた包含と排除のベクトルの1つである。
本稿では、非定型音声の知覚を形作り、現在人工知能に符号化されている構造バイアスに焦点を当てる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech remains one of the most visible yet overlooked vectors of inclusion and exclusion in contemporary society. While fluency is often equated with credibility and competence, individuals with atypical speech patterns are routinely marginalized. Given the current state of the debate, this article focuses on the structural biases that shape perceptions of atypical speech and are now being encoded into artificial intelligence. Automated speech recognition (ASR) systems and voice interfaces, trained predominantly on standardized speech, routinely fail to recognize or respond to diverse voices, compounding digital exclusion. As AI technologies increasingly mediate access to opportunity, the study calls for inclusive technological design, anti-bias training to minimize the impact of discriminatory algorithmic decisions, and enforceable policy reform that explicitly recognize speech diversity as a matter of equity, not merely accessibility. Drawing on interdisciplinary research, the article advocates for a cultural and institutional shift in how we value voice, urging co-created solutions that elevate the rights, representation, and realities of atypical speakers in the digital age. Ultimately, the article reframes speech inclusion as a matter of equity (not accommodation) and advocates for co-created AI systems that reflect the full spectrum of human voices.
- Abstract(参考訳): 言論は現代社会において最も目に見えないが見過ごされた包含と排除のベクトルの1つである。
フラレンシは信頼と能力と同一視されることが多いが、非定型的な発話パターンを持つ個人は日常的に疎外される。
議論の現状を踏まえ、本稿は非定型音声の知覚を形作る構造バイアスに焦点を当て、現在人工知能にコード化されている。
ASR(Automated Speech Recognition)システムと音声インタフェースは、主に標準化された音声に基づいて訓練され、日常的に多様な音声を認識したり応答したりせず、デジタル排除を複雑にしている。
AI技術が機会へのアクセスを仲介するにつれて、この研究は包括的技術設計、差別的なアルゴリズム決定の影響を最小限に抑えるためのアンチバイアストレーニング、そして言論の多様性を単にアクセシビリティではなく、公平な問題として明確に認識する強制可能な政策改革を要求している。
学際的な研究に基づいて、この論文は、私たちが声をどう評価するかに関する文化的・制度的な変化を提唱し、デジタル時代の非定型話者の権利、表現、現実性を高める、共同創造された解決策を提唱する。
最終的に、この記事は言論の包摂性を(宿泊ではなく)株式の問題として再定義し、人間の声の全スペクトルを反映した共創AIシステムを支持する。
関連論文リスト
- Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。
i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文 参考訳(メタデータ) (2025-08-28T06:51:42Z) - Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens [0.42970700836450487]
特定の言語品種の体系的誤認識は、技術的な制限以上のものであると論じる。
我々は、ASRバイアスと他のアルゴリズム的公正度とを区別する音声技術の3つのユニークな倫理的次元を同定する。
論文 参考訳(メタデータ) (2025-08-10T02:26:47Z) - "It's not a representation of me": Examining Accent Bias and Digital Exclusion in Synthetic AI Voice Services [3.8931913630405393]
本研究では、混合手法を用いて2つの合成AI音声サービス(SpeechifyとElevenLabs)を評価する。
以上の結果から,5つの地域,英語のアクセントにおける技術的特徴の相違が判明した。
現在の音声生成技術は、言語特権とアクセントに基づく差別を不注意に強化することができる。
論文 参考訳(メタデータ) (2025-04-12T21:31:22Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。