Fugu-MT 論文翻訳(概要): Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

論文の概要: Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens

arxiv url: http://arxiv.org/abs/2508.07143v1
Date: Sun, 10 Aug 2025 02:26:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-12 21:23:28.72522
Title: Fairness of Automatic Speech Recognition: Looking Through a Philosophical Lens
Title（参考訳）: 音声認識の公正性:哲学的レンズを通して見る
Authors: Anna Seo Gyeong Choi, Hoon Choi,
Abstract要約: 特定の言語品種の体系的誤認識は、技術的な制限以上のものであると論じる。我々は、ASRバイアスと他のアルゴリズム的公正度とを区別する音声技術の3つのユニークな倫理的次元を同定する。
参考スコア（独自算出の注目度）: 0.42970700836450487
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Automatic Speech Recognition (ASR) systems now mediate countless human-technology interactions, yet research on their fairness implications remains surprisingly limited. This paper examines ASR bias through a philosophical lens, arguing that systematic misrecognition of certain speech varieties constitutes more than a technical limitation -- it represents a form of disrespect that compounds historical injustices against marginalized linguistic communities. We distinguish between morally neutral classification (discriminate1) and harmful discrimination (discriminate2), demonstrating how ASR systems can inadvertently transform the former into the latter when they consistently misrecognize non-standard dialects. We identify three unique ethical dimensions of speech technologies that differentiate ASR bias from other algorithmic fairness concerns: the temporal burden placed on speakers of non-standard varieties ("temporal taxation"), the disruption of conversational flow when systems misrecognize speech, and the fundamental connection between speech patterns and personal/cultural identity. These factors create asymmetric power relationships that existing technical fairness metrics fail to capture. The paper analyzes the tension between linguistic standardization and pluralism in ASR development, arguing that current approaches often embed and reinforce problematic language ideologies. We conclude that addressing ASR bias requires more than technical interventions; it demands recognition of diverse speech varieties as legitimate forms of expression worthy of technological accommodation. This philosophical reframing offers new pathways for developing ASR systems that respect linguistic diversity and speaker autonomy.
Abstract（参考訳）: 自動音声認識(ASR)システムは今や数え切れないほどの人間とテクノロジーの相互作用を媒介しているが、その公正性に関する研究は驚くほど限られている。本稿では、哲学的なレンズを通してASRの偏見を考察し、特定の言語品種の体系的誤認識が技術的な制限以上のものであることを論じる。我々は、道徳的に中立な分類(差別1)と有害な差別(差別2)を区別し、非標準方言を常に誤認識する場合に、ASRシステムが前者を故意に後者に変換する方法を示す。我々は,ASRバイアスと他のアルゴリズム的公正性の問題とを区別する,音声技術の3つのユニークな倫理的側面を同定する。これらの要因は、既存の技術的公正度が捉えられない非対称なパワー関係を生み出す。本稿は、ASR開発における言語標準化と多元主義の緊張関係を分析し、現状のアプローチがしばしば問題のある言語イデオロギーを組み込んで強化していると主張している。我々は、ASRバイアスに対処するには技術的な介入以上のものが必要であると結論付けた。この哲学的再フレーミングは、言語多様性と話者自律性を尊重するASRシステムを開発するための新しい経路を提供する。

関連論文リスト

Unheard in the Digital Age: Rethinking AI Bias and Speech Diversity [0.0]
言論は現代社会において最も目に見えないが見過ごされた包含と排除のベクトルの1つである。本稿では、非定型音声の知覚を形作り、現在人工知能に符号化されている構造バイアスに焦点を当てる。
論文参考訳（メタデータ） (2026-01-26T16:12:25Z)
WESR: Scaling and Evaluating Word-level Event-Speech Recognition [59.21814194620928]
音声は言語情報だけでなく、笑ったり泣いたりするような豊富な非言語的な音声イベントも伝達する。我々は,21の発声イベントの分類を改良し,個別(スタンドアローン)と連続(音声と混合)に分類した。改良された分類法に基づくWESR-Benchは,新しい位置認識プロトコルを備えた専門家アノテート評価セット(900以上の発話)である。
論文参考訳（メタデータ） (2026-01-08T02:23:21Z)
A Sociophonetic Analysis of Racial Bias in Commercial ASR Systems Using the Pacific Northwest English Corpus [6.361208877327219]
本稿では,4大商用自動音声認識(ASR)システムにおける人種バイアスの体系的評価について述べる。我々は,4つの民族的背景(アフリカ系アメリカ人,コーカサス系アメリカ人,チカンX,ヤカマ)から話者間での転写精度を分析し,社会音の変動がシステム性能に与える影響について検討した。
論文参考訳（メタデータ） (2025-10-26T02:19:40Z)
Towards Inclusive Communication: A Unified Framework for Generating Spoken Language from Sign, Lip, and Audio [52.859261069569165]
音声テキスト生成のための手話,唇の動き,音声の多様な組み合わせを扱える最初の統一フレームワークを提案する。 i)不均一な入力を効果的に処理できる統一されたモダリティ非依存アーキテクチャの設計、(ii)モダリティ間の過小評価された相乗効果の探索、特に手話理解における非手動的手がかりとしての唇運動の役割、(iii)個々のタスクに特化した最先端モデルと同等以上のパフォーマンスを達成すること、の3つの目的に焦点をあてる。
論文参考訳（メタデータ） (2025-08-28T06:51:42Z)
Cross-linguistic disagreement as a conflict of semantic alignment norms in multilingual AI~Linguistic Diversity as a Problem for Philosophy, Cognitive Science, and AI~ [0.2443066828522608]
言語間の整合性(CL整合性)は言語間の普遍的な概念を求める。言語固有の意味規範を尊重する民族一貫性。普遍表現と言語間移動能力が本質的に望ましいという仮定を見つける。
論文参考訳（メタデータ） (2025-03-01T03:31:40Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
本稿では,ペア音声とテキストコーパスを使わずにASRシステムを開発するという課題に取り組む。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。この革新的なモデルは、レキシコンフリー環境下での以前の教師なしASRモデルの性能を上回る。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
A Theory of Unsupervised Speech Recognition [60.12287608968879]
教師なし音声認識(英語: Unsupervised speech Recognition, ASR-U)は、音声のみの音声とテキストのみのコーパスから自動音声認識システムを学習する問題である。本稿では,ランダム行列理論とニューラル・タンジェント・カーネルの理論に基づいて,ASR-U系の特性を研究するための一般的な理論的枠組みを提案する。
論文参考訳（メタデータ） (2023-06-09T08:12:27Z)
A Vector Quantized Approach for Text to Speech Synthesis on Real-World Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文参考訳（メタデータ） (2023-02-08T17:34:32Z)
Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文参考訳（メタデータ） (2022-11-17T13:15:58Z)
Language technology practitioners as language managers: arbitrating data bias and predictive bias in ASR [0.0]
我々は、言語政策のレンズを使用して、業界におけるASRシステムのトレーニングとテストの現在の実践が、これらの体系的なエラーの違いをもたらすデータバイアスにどのように結びつくかを分析する。我々は,言語資源の再フレーミングを,市場だけでなく,言論コミュニティの有意義な協力のもとに設計すべき(公的な)基盤として提案する。
論文参考訳（メタデータ） (2022-02-25T10:37:52Z)
Spectro-Temporal Deep Features for Disordered Speech Assessment and Recognition [65.25325641528701]
音声スペクトルのSVD分解による深い特徴を埋め込んだ新しいスペクトル時空間ベースを提案する。 UASpeechコーパスで行った実験では、提案された分光時間深部特徴適応システムは、データ拡張の有無にかかわらず、ワードエラー率(WER)を最大263%(相対8.6%)削減することで、ベースラインi-適応を一貫して上回ったことが示唆された。
論文参考訳（メタデータ） (2022-01-14T16:56:43Z)
Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文参考訳（メタデータ） (2021-03-28T12:52:03Z)
My Teacher Thinks The World Is Flat! Interpreting Automatic Essay Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文参考訳（メタデータ） (2020-12-27T06:19:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。