論文の概要: Causally Disentangled Contrastive Learning for Multilingual Speaker Embeddings
- arxiv url: http://arxiv.org/abs/2602.01363v1
- Date: Sun, 01 Feb 2026 18:02:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.74287
- Title: Causally Disentangled Contrastive Learning for Multilingual Speaker Embeddings
- Title(参考訳): 多言語話者埋め込みのための因果不整合コントラスト学習
- Authors: Mariëtte Olijslager, Seyed Sahand Mohammadi Ziabari, Ali Mohammed Mansoor Alsahag,
- Abstract要約: 本稿では,SimCLR学習話者埋め込みにおいて,人口統計情報,特に性別,年齢,アクセントがどの程度存在するかを検討する。
本稿では,逆行性学習と因果的ボトルネックアーキテクチャの2つのデバイアスング戦略について検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speaker embeddings are widely used in speaker verification systems, but prior work has shown that they often encode sensitive demographic attributes, raising fairness and privacy concerns. This paper investigates the extent to which demographic information, specifically gender, age, and accent, is present in SimCLR-trained speaker embeddings and whether such leakage can be mitigated without severely degrading speaker verification performance. We study two debiasing strategies: adversarial training through gradient reversal and a causal bottleneck architecture that explicitly separates demographic and residual information. Demographic leakage is quantified using both linear and nonlinear probing classifiers, while speaker verification performance is evaluated using ROC-AUC and EER. Our results show that gender information is strongly and linearly encoded in baseline embeddings, whereas age and accent are weaker and primarily nonlinearly represented. Adversarial debiasing reduces gender leakage but has limited effect on age and accent and introduces a clear trade-off with verification accuracy. The causal bottleneck further suppresses demographic information, particularly in the residual representation, but incurs substantial performance degradation. These findings highlight fundamental limitations in mitigating demographic leakage in self-supervised speaker embeddings and clarify the trade-offs inherent in current debiasing approaches.
- Abstract(参考訳): 自己教師型話者埋め込みは、話者認証システムで広く使われているが、以前の研究は、しばしばセンシティブな人口統計特性を符号化し、公平さとプライバシーの懸念を高めることが示されている。
本稿では,SimCLR学習話者埋め込みにおいて,人口統計情報,特に性別,年齢,アクセントがどの程度存在するか,また,そのような漏洩が話者検証性能を著しく低下させることなく軽減できるかを検討する。
本稿では,段階的逆転による逆行訓練と,人口統計と残留情報を明確に分離した因果的ボトルネックアーキテクチャの2つのデバイアスング戦略について検討する。
ROC-AUC と EER を用いて話者検証性能を評価するとともに, 線形および非線形な探索分類器を用いて復号化を定量化する。
その結果,性別情報はベースライン埋め込みにおいて強く線形に符号化されているのに対して,年齢やアクセントはより弱く,主に非線形に表現されていることがわかった。
対立的嫌悪は性別のリークを減少させるが、年齢やアクセントに制限効果があり、正確さで明確なトレードオフをもたらす。
因果的ボトルネックは、特に残留表現において、さらに人口統計情報を抑圧するが、かなりの性能劣化を引き起こす。
これらの知見は、自己教師型話者埋め込みにおける人口動態の漏洩を緩和する基本的な限界を浮き彫りにし、現在のデバイアスングアプローチに固有のトレードオフを明らかにする。
関連論文リスト
- Generative Classifiers Avoid Shortcut Solutions [84.23247217037134]
分類に対する差別的なアプローチは、しばしば、分配されるが、小さな分布シフトの下で失敗するショートカットを学習する。
生成型分類器は、主にスパイラルな特徴ではなく、コアとスパイラルの両方の全ての特徴をモデル化することでこの問題を回避することができることを示す。
拡散型および自己回帰型生成型分類器は,5つの標準画像およびテキスト分散シフトベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-31T18:31:46Z) - Person-Centric Annotations of LAION-400M: Auditing Bias and Its Transfer to Models [81.45743826739054]
大きな障壁は、LAION-400MのようなWebスケールデータセットにおける人口統計アノテーションの欠如である。
2億7600万以上のバウンディングボックスや、性別や人種/民族ラベルの認識、キャプションの自動生成など、完全なデータセットのための人中心アノテーションを作成します。
それらを用いて、黒人や中東と見なされる男性や個人と犯罪に関連する負のコンテンツとの不均等な結びつきなど、人口不均衡や有害な関連を明らかにする。
論文 参考訳(メタデータ) (2025-10-04T07:51:59Z) - Who's Asking? Investigating Bias Through the Lens of Disability Framed Queries in LLMs [2.722784054643991]
大規模言語モデル(LLM)は、ユーザの人口統計特性を、単独で推測する。
これらの推論を形作る際の障害の手がかりは、ほとんど未発見のままである。
そこで本研究では,障害条件による人口統計バイアスを,最先端の8つのLLMに対して,初めて体系的に評価した。
論文 参考訳(メタデータ) (2025-08-18T21:03:09Z) - SCDF: A Speaker Characteristics DeepFake Speech Dataset for Bias Analysis [1.2499537119440245]
話者特性 ディープフェイクデータセットは、男性と女性両方の話者のバランスの取れた表現で237,000以上の発話を含んでいる。
話者特性が検出性能に大きく影響し,性別,言語,年齢,シンセサイザータイプの違いが明らかになった。
これらの知見は、偏見を意識した開発の必要性を強調し、差別的でないディープフェイク検出システムを構築するための基盤を提供する。
論文 参考訳(メタデータ) (2025-08-11T12:58:37Z) - Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation [5.907945985868999]
本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、観測された分散のごく一部(8%)が人口統計因子であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
論文 参考訳(メタデータ) (2025-07-17T14:00:13Z) - Fair Deepfake Detectors Can Generalize [51.21167546843708]
共同設立者(データ分散とモデルキャパシティ)の制御により,公正な介入による一般化が向上することを示す。
この知見を応用して, 逆正当性重み付けとサブグループワイド特徴正規化を併用し, 新たなアライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・アライメント・インセンティブ・インターベンション・インベンション・インテクション(DAID)を提案する。
DAIDは、いくつかの最先端技術と比較して、公平性と一般化の両方において一貫して優れた性能を達成する
論文 参考訳(メタデータ) (2025-07-03T14:10:02Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。