Fugu-MT 論文翻訳(概要): The Voice Behind the Words: Quantifying Intersectional Bias in SpeechLLMs

論文の概要: The Voice Behind the Words: Quantifying Intersectional Bias in SpeechLLMs

arxiv url: http://arxiv.org/abs/2603.16941v1
Date: Sun, 15 Mar 2026 16:54:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.280047
Title: The Voice Behind the Words: Quantifying Intersectional Bias in SpeechLLMs
Title（参考訳）: 単語の背後にある声:音声LLMにおける節間バイアスの定量化
Authors: Shree Harsha Bokkahalli Satish, Christoph Minixhofer, Maria Teleki, James Caverlee, Ondřej Klejch, Peter Bell, Gustav Eje Henter, Éva Székely,
Abstract要約: 音声大言語モデル(SpeechLLMs)は音声入力を直接処理し、アクセントや知覚性などの手がかりを保持する。我々は,2,880の対話を用いた3つのSpeechLLMにおけるアクセントと性差の大規模交叉評価を行った。
参考スコア（独自算出の注目度）: 34.359037939013085
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech Large Language Models (SpeechLLMs) process spoken input directly, retaining cues such as accent and perceived gender that were previously removed in cascaded pipelines. This introduces speaker identity dependent variation in responses. We present a large-scale intersectional evaluation of accent and gender bias in three SpeechLLMs using 2,880 controlled interactions across six English accents and two gender presentations, keeping linguistic content constant through voice cloning. Using pointwise LLM-judge ratings, pairwise comparisons, and Best-Worst Scaling with human validation, we detect consistent disparities. Eastern European-accented speech receives lower helpfulness scores, particularly for female-presenting voices. The bias is implicit: responses remain polite but differ in helpfulness. While LLM judges capture the directional trend of these biases, human evaluators exhibit significantly higher sensitivity, uncovering sharper intersectional disparities.
Abstract（参考訳）: 音声大言語モデル(SpeechLLMs)は直接音声入力を処理し、以前カスケードパイプラインで削除されたアクセントや知覚性などの手がかりを保持する。これは、応答の話者識別依存性のばらつきをもたらす。本研究では,6つの英語アクセントと2つのジェンダープレゼンテーション間での2,880のインタラクションを用いて,3つのSpeechLLMにおけるアクセントとジェンダーのバイアスの大規模交叉評価を行い,音声クローニングによる言語内容の一定性を維持した。 LLM-judge 評価,ペア比較,Best-Worst Scaling with Human Validation を用いて,一貫した相違点を検出する。東欧のアクセントのあるスピーチは、特に女性に表される声に対して、役に立つスコアが低い。偏見は暗黙的であり、反応は丁寧に残るが、有用性は異なる。 LLMの審査員はこれらのバイアスの方向の傾向を捉えているが、人間の評価者ははるかに高い感度を示し、より鋭い交叉差を明らかにする。

関連論文リスト

Speak Your Mind: The Speech Continuation Task as a Probe of Voice-Based Model Bias [24.932603485660323]
音声継続 (SC) は、意味的文脈と話者識別を保ちながら、音声プロンプトのコヒーレントな拡張を生成するタスクである。本研究は,性差と発声タイプが継続行動にどのように影響するかを調査し,SCにおけるバイアスの最初の体系的評価を行った。
論文参考訳（メタデータ） (2025-09-26T08:43:25Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文参考訳（メタデータ） (2024-07-23T08:13:51Z)
Twists, Humps, and Pebbles: Multilingual Speech Recognition Models Exhibit Gender Performance Gaps [25.95711246919163]
現在の自動音声認識(ASR)モデルは、多くの言語やタスクでかなりの変更を加えることなく使用できるように設計されている。本研究では,3つのデータセット上で広く使用されている2つの多言語ASRモデルの性能を体系的に評価する。以上の結果から,言語やモデルによって異なる傾向がみられた。
論文参考訳（メタデータ） (2024-02-28T00:24:29Z)
Generating Multilingual Gender-Ambiguous Text-to-Speech Voices [4.005334718121374]
本研究は,マルチスピーカ・マルチリンガル・セッティングにおいて,男女あいまいなTTS音声を新たに生成する作業に対処する。我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。
論文参考訳（メタデータ） (2022-11-01T10:40:24Z)
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文参考訳（メタデータ） (2021-01-19T12:53:43Z)
Unsupervised Cross-lingual Representation Learning for Speech Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文参考訳（メタデータ） (2020-06-24T18:25:05Z)
Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文参考訳（メタデータ） (2020-05-02T04:34:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。