論文の概要: Acoustic-based Gender Differentiation in Speech-aware Language Models
- arxiv url: http://arxiv.org/abs/2509.21125v1
- Date: Thu, 25 Sep 2025 13:15:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.924199
- Title: Acoustic-based Gender Differentiation in Speech-aware Language Models
- Title(参考訳): 音声認識言語モデルにおける音響的ジェンダー差
- Authors: Junhyuk Choi, Jihwan Seol, Nayeon Kim, Chanhee Cho, EunBin Cho, Bugeun Kim,
- Abstract要約: 音声認識言語モデル(SpeechLMs)は、音声ベースのコミュニケーションを可能にすることによって、人間とAIの相互作用を根本的に変える。
本稿では,ジェンダー・インディペンデント,ジェンダー・ステレオタイプ,ジェンダー・インディペンデントという3つのカテゴリにまたがる9,208の音声サンプルを含む,この現象の系統的解析を可能にする新しいデータセットを提案する。
- 参考スコア(独自算出の注目度): 3.9845890275228277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speech-aware Language Models (SpeechLMs) have fundamentally transformed human-AI interaction by enabling voice-based communication, yet they may exhibit acoustic-based gender differentiation where identical questions lead to different responses based on the speaker's gender. This paper propose a new dataset that enables systematic analysis of this phenomenon, containing 9,208 speech samples across three categories: Gender-Independent, Gender-Stereotypical, and Gender-Dependent. We further evaluated LLaMA-Omni series and discovered a paradoxical pattern; while overall responses seems identical regardless of gender, the pattern is far from unbiased responses. Specifically, in Gender-Stereotypical questions, all models consistently exhibited male-oriented responses; meanwhile, in Gender-Dependent questions where gender differentiation would be contextually appropriate, models exhibited responses independent to gender instead. We also confirm that this pattern does not result from neutral options nor perceived gender of a voice. When we allow neutral response, models tends to respond neutrally also in Gender-Dependent questions. The paradoxical pattern yet retains when we applied gender neutralization methods on speech. Through comparison between SpeechLMs with corresponding backbone LLMs, we confirmed that these paradoxical patterns primarily stem from Whisper speech encoders, which generates male-oriented acoustic tokens. These findings reveal that current SpeechLMs may not successfully remove gender biases though they prioritized general fairness principles over contextual appropriateness, highlighting the need for more sophisticated techniques to utilize gender information properly in speech technology.
- Abstract(参考訳): 音声対応言語モデル(SpeechLMs)は、音声ベースのコミュニケーションを可能にすることによって、人間とAIの相互作用を根本的に変えてきたが、同一の質問が話者の性別に基づいて異なる反応をもたらすような、音響ベースの性差を示すこともある。
本稿では,ジェンダー・インディペンデント,ジェンダー・ステレオタイプ,ジェンダー・インディペンデントという3つのカテゴリにまたがる9,208の音声サンプルを含む,この現象の系統的解析を可能にする新しいデータセットを提案する。
我々はさらにLLaMA-Omniシリーズを評価し、パラドックスパターンを発見した。
特に、ジェンダー・ステレオタイプ的質問では、すべてのモデルは一貫して男性指向の反応を示し、一方でジェンダー依存的な質問では、性別の区別が文脈的に適切である場合、モデルは代わりに性別に依存しない反応を示した。
また、このパターンは、中立的な選択肢や声の知覚性によってもたらされないことも確認した。
中立応答を許容すると、モデルはジェンダー依存の質問でも中立に応答する傾向にある。
ジェンダー中立化手法を音声に適用した場合, パラドックスパターンは依然として維持される。
その結果,これらのパラドックスパターンは,男性指向の音響トークンを生成するWhisper音声エンコーダを主成分とすることがわかった。
これらの結果から,現在使われているSpeechLMは,文脈的適切性よりも一般的なフェアネスの原則を優先して,ジェンダー情報を適切に活用する高度な技術の必要性を強調しつつも,ジェンダーバイアスの除去に成功しない可能性が示唆された。
関連論文リスト
- Who Gets the Mic? Investigating Gender Bias in the Speaker Assignment of a Speech-LLM [4.12691471378072]
本研究では,話者配置をバイアス調査の分析ツールとして活用する手法を提案する。
我々は、テキスト・トゥ・スペーチ(TTS)モデルであるBarkを評価し、テキスト・プロンプトのデフォルト話者代入を分析した。
バークの話者選択がジェンダー付き連想と体系的に一致している場合、トレーニングデータやモデルデザインのパターンを明らかにする可能性がある。
論文 参考訳(メタデータ) (2025-08-19T08:10:55Z) - Gender Bias in Instruction-Guided Speech Synthesis Models [55.2480439325792]
本研究では、モデルが職業関連プロンプトをどのように解釈するかにおける潜在的な性別バイアスについて検討する。
このようなプロンプトを解釈する際に、これらのモデルがジェンダーステレオタイプを増幅する傾向を示すかどうかを検討する。
実験の結果, ある職業において, 性別偏見を示す傾向が示された。
論文 参考訳(メタデータ) (2025-02-08T17:38:24Z) - Speech After Gender: A Trans-Feminine Perspective on Next Steps for Speech Science and Technology [1.7126708168238125]
トランスフェミニンの性別確認音声教師は、話者のアイデンティティに関する現在の理解を損なう音声に対して、ユニークな視点を持っている。
VVD(Versatile Voice dataset)は,ジェンダー付き軸に沿って声を変更する3人の話者の集合体である。
論文 参考訳(メタデータ) (2024-07-09T21:19:49Z) - Disclosure and Mitigation of Gender Bias in LLMs [64.79319733514266]
大規模言語モデル(LLM)はバイアス応答を生成することができる。
条件生成に基づく間接探索フレームワークを提案する。
LLMにおける明示的・暗黙的な性バイアスを明らかにするための3つの戦略を探求する。
論文 参考訳(メタデータ) (2024-02-17T04:48:55Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - Integrating Language Models into Direct Speech Translation: An
Inference-Time Solution to Control Gender Inflection [23.993869026482415]
本稿では,音声翻訳における話者関連性摂動を制御するための最初の推論時解を提案する。
我々のソリューションは、STデコーダによって暗黙的に学習された(バイアス付き)内部言語モデル(LM)を、性別固有の外部LMに部分的に置き換える。
論文 参考訳(メタデータ) (2023-10-24T11:55:16Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Generating Multilingual Gender-Ambiguous Text-to-Speech Voices [4.005334718121374]
本研究は,マルチスピーカ・マルチリンガル・セッティングにおいて,男女あいまいなTTS音声を新たに生成する作業に対処する。
我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。
論文 参考訳(メタデータ) (2022-11-01T10:40:24Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。