論文の概要: Who Gets the Mic? Investigating Gender Bias in the Speaker Assignment of a Speech-LLM
- arxiv url: http://arxiv.org/abs/2508.13603v1
- Date: Tue, 19 Aug 2025 08:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.840313
- Title: Who Gets the Mic? Investigating Gender Bias in the Speaker Assignment of a Speech-LLM
- Title(参考訳): 誰がミックを手に入れたか? 音声LLMの話者割り当てにおけるジェンダーバイアスの調査
- Authors: Dariia Puhach, Amir H. Payberah, Éva Székely,
- Abstract要約: 本研究では,話者配置をバイアス調査の分析ツールとして活用する手法を提案する。
我々は、テキスト・トゥ・スペーチ(TTS)モデルであるBarkを評価し、テキスト・プロンプトのデフォルト話者代入を分析した。
バークの話者選択がジェンダー付き連想と体系的に一致している場合、トレーニングデータやモデルデザインのパターンを明らかにする可能性がある。
- 参考スコア(独自算出の注目度): 4.12691471378072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Similar to text-based Large Language Models (LLMs), Speech-LLMs exhibit emergent abilities and context awareness. However, whether these similarities extend to gender bias remains an open question. This study proposes a methodology leveraging speaker assignment as an analytic tool for bias investigation. Unlike text-based models, which encode gendered associations implicitly, Speech-LLMs must produce a gendered voice, making speaker selection an explicit bias cue. We evaluate Bark, a Text-to-Speech (TTS) model, analyzing its default speaker assignments for textual prompts. If Bark's speaker selection systematically aligns with gendered associations, it may reveal patterns in its training data or model design. To test this, we construct two datasets: (i) Professions, containing gender-stereotyped occupations, and (ii) Gender-Colored Words, featuring gendered connotations. While Bark does not exhibit systematic bias, it demonstrates gender awareness and has some gender inclinations.
- Abstract(参考訳): テキストベースのLarge Language Models (LLM)と同様に、Speech-LLMは創発的な能力と文脈認識を示す。
しかしながら、これらの類似性が性バイアスに拡張されるかどうかは未解決の問題である。
本研究では,話者配置をバイアス調査の分析ツールとして活用する手法を提案する。
性別付き連想を暗黙的にエンコードするテキストベースのモデルとは異なり、Speech-LLMは性別付き音声を生成しなければならない。
我々は、テキスト・トゥ・スペーチ(TTS)モデルであるBarkを評価し、テキスト・プロンプトのデフォルト話者代入を分析した。
バークの話者選択がジェンダー付き連想と体系的に一致している場合、トレーニングデータやモデルデザインのパターンを明らかにする可能性がある。
これをテストするために、2つのデータセットを構築します。
一 ジェンダーステレオタイプの職業を含む職業及び職業
(ii)ジェンダーカラーの単語。
バークは体系的な偏見を示していないが、性意識を示し、性傾向を持っている。
関連論文リスト
- Gender Bias in Instruction-Guided Speech Synthesis Models [55.2480439325792]
本研究では、モデルが職業関連プロンプトをどのように解釈するかにおける潜在的な性別バイアスについて検討する。
このようなプロンプトを解釈する際に、これらのモデルがジェンダーステレオタイプを増幅する傾向を示すかどうかを検討する。
実験の結果, ある職業において, 性別偏見を示す傾向が示された。
論文 参考訳(メタデータ) (2025-02-08T17:38:24Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Generating Multilingual Gender-Ambiguous Text-to-Speech Voices [4.005334718121374]
本研究は,マルチスピーカ・マルチリンガル・セッティングにおいて,男女あいまいなTTS音声を新たに生成する作業に対処する。
我々の知る限り、これは、様々な性別のあいまいな声を確実に生成できる、体系的で検証された最初のアプローチである。
論文 参考訳(メタデータ) (2022-11-01T10:40:24Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。