論文の概要: Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation
- arxiv url: http://arxiv.org/abs/2511.21517v1
- Date: Wed, 26 Nov 2025 15:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.178609
- Title: Voice, Bias, and Coreference: An Interpretability Study of Gender in Speech Translation
- Title(参考訳): 音声・バイアス・コアス:音声翻訳におけるジェンダーの解釈可能性の検討
- Authors: Lina Conti, Dennis Fucci, Marco Gaido, Matteo Negri, Guillaume Wisniewski, Luisa Bentivogli,
- Abstract要約: 本稿では,STモデルを用いて3つの言語対にまたがる話者参照語に性別を割り当てるメカニズムについて検討する。
モデルは、訓練データから用語固有の性関係を再現するだけでなく、男性における有病率のより広範なパターンを学習する。
コントラスト的特徴属性をスペクトログラムに用いて, 性別の精度が高いモデルは, 以前は未知のメカニズムに依存していたことが明らかとなった。
- 参考スコア(独自算出の注目度): 25.126933196101703
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike text, speech conveys information about the speaker, such as gender, through acoustic cues like pitch. This gives rise to modality-specific bias concerns. For example, in speech translation (ST), when translating from languages with notional gender, such as English, into languages where gender-ambiguous terms referring to the speaker are assigned grammatical gender, the speaker's vocal characteristics may play a role in gender assignment. This risks misgendering speakers, whether through masculine defaults or vocal-based assumptions. Yet, how ST models make these decisions remains poorly understood. We investigate the mechanisms ST models use to assign gender to speaker-referring terms across three language pairs (en-es/fr/it), examining how training data patterns, internal language model (ILM) biases, and acoustic information interact. We find that models do not simply replicate term-specific gender associations from training data, but learn broader patterns of masculine prevalence. While the ILM exhibits strong masculine bias, models can override these preferences based on acoustic input. Using contrastive feature attribution on spectrograms, we reveal that the model with higher gender accuracy relies on a previously unknown mechanism: using first-person pronouns to link gendered terms back to the speaker, accessing gender information distributed across the frequency spectrum rather than concentrated in pitch.
- Abstract(参考訳): テキストとは異なり、音声はピッチのような音響的手がかりを通じて、性別などの話者に関する情報を伝達する。
これはモダリティ固有のバイアスの懸念を引き起こす。
例えば、音声翻訳(ST)では、英語などの表記性のある言語から、話者を参照するジェンダーのあいまいな言葉が文法性に割り当てられている言語に翻訳する場合、話者の発声特性は、ジェンダーの割り当てにおいて役割を果たす可能性がある。
このことは、男性によるデフォルトや声による仮定を通さずに、話者を誤認するリスクを負う。
しかし、STモデルがどのようにこれらの決定を下すかは、いまだに理解されていない。
本稿では,STモデルを用いて3つの言語対(en-es/fr/it)の話者参照語に性別を割り当てるメカニズムについて検討し,学習データパターン,内部言語モデル(ILM)バイアス,音響情報の相互作用について検討する。
モデルは、訓練データから用語固有の性関係を再現するだけでなく、男性における有病率のより広範なパターンを学習する。
ILMは強い男性バイアスを示すが、モデルは音響入力に基づいてこれらの好みをオーバーライドすることができる。
比較的特徴属性をスペクトログラムに用いて, 性別精度の高いモデルでは, 従来の未知のメカニズムに依拠することが明らかとなった。例えば, 一人称代名詞を用いて, 性別を付けた単語を話者にリンクし, ピッチに集中するのではなく周波数スペクトルに分散した性別情報にアクセスする。
関連論文リスト
- Acoustic-based Gender Differentiation in Speech-aware Language Models [3.9845890275228277]
音声認識言語モデル(SpeechLMs)は、音声ベースのコミュニケーションを可能にすることによって、人間とAIの相互作用を根本的に変える。
本稿では,ジェンダー・インディペンデント,ジェンダー・ステレオタイプ,ジェンダー・インディペンデントという3つのカテゴリにまたがる9,208の音声サンプルを含む,この現象の系統的解析を可能にする新しいデータセットを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:15:01Z) - Who Gets the Mic? Investigating Gender Bias in the Speaker Assignment of a Speech-LLM [4.12691471378072]
本研究では,話者配置をバイアス調査の分析ツールとして活用する手法を提案する。
我々は、テキスト・トゥ・スペーチ(TTS)モデルであるBarkを評価し、テキスト・プロンプトのデフォルト話者代入を分析した。
バークの話者選択がジェンダー付き連想と体系的に一致している場合、トレーニングデータやモデルデザインのパターンを明らかにする可能性がある。
論文 参考訳(メタデータ) (2025-08-19T08:10:55Z) - Gender Bias in Instruction-Guided Speech Synthesis Models [55.2480439325792]
本研究では、モデルが職業関連プロンプトをどのように解釈するかにおける潜在的な性別バイアスについて検討する。
このようなプロンプトを解釈する際に、これらのモデルがジェンダーステレオタイプを増幅する傾向を示すかどうかを検討する。
実験の結果, ある職業において, 性別偏見を示す傾向が示された。
論文 参考訳(メタデータ) (2025-02-08T17:38:24Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Beyond Binary Gender: Evaluating Gender-Inclusive Machine Translation with Ambiguous Attitude Words [85.48043537327258]
既存の機械翻訳の性別バイアス評価は主に男性と女性の性別に焦点を当てている。
本研究では,AmbGIMT (Gender-Inclusive Machine Translation with Ambiguous attitude words) のベンチマークを示す。
本研究では,感情的態度スコア(EAS)に基づく性別バイアス評価手法を提案する。
論文 参考訳(メタデータ) (2024-07-23T08:13:51Z) - Integrating Language Models into Direct Speech Translation: An
Inference-Time Solution to Control Gender Inflection [23.993869026482415]
本稿では,音声翻訳における話者関連性摂動を制御するための最初の推論時解を提案する。
我々のソリューションは、STデコーダによって暗黙的に学習された(バイアス付き)内部言語モデル(LM)を、性別固有の外部LMに部分的に置き換える。
論文 参考訳(メタデータ) (2023-10-24T11:55:16Z) - How To Build Competitive Multi-gender Speech Translation Models For
Controlling Speaker Gender Translation [21.125217707038356]
発音性言語から文法性言語に翻訳する場合、生成された翻訳は、話者を参照する者を含む様々な単語に対して、明確なジェンダー代入を必要とする。
このような偏見や包括的行動を避けるために、話者の性別に関する外部から提供されたメタデータによって、話者関連表現の性別割当を導出すべきである。
本稿では、話者のジェンダーメタデータを単一の「マルチジェンダー」ニューラルSTモデルに統合し、維持しやすくすることで、同じ結果を達成することを目的とする。
論文 参考訳(メタデータ) (2023-10-23T17:21:32Z) - Analyzing Gender Representation in Multilingual Models [59.21915055702203]
実践的なケーススタディとして,ジェンダーの区別の表現に焦点をあてる。
ジェンダーの概念が、異なる言語で共有された部分空間にエンコードされる範囲について検討する。
論文 参考訳(メタデータ) (2022-04-20T00:13:01Z) - Protecting gender and identity with disentangled speech representations [49.00162808063399]
音声における性情報保護は,話者識別情報のモデル化よりも効果的であることを示す。
性別情報をエンコードし、2つの敏感な生体識別子を解読する新しい方法を提示する。
論文 参考訳(メタデータ) (2021-04-22T13:31:41Z) - Breeding Gender-aware Direct Speech Translation Systems [14.955696163410254]
性別認識型stソリューションは強い-しかし性別認識型stモデルを大きく上回る可能性がある。
ジェンダーマーク付き単語の翻訳は、全体的な翻訳品質を維持しながら、精度が最大30ポイント向上する。
論文 参考訳(メタデータ) (2020-12-09T10:18:03Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。