論文の概要: Improving Fairness in Speaker Recognition
- arxiv url: http://arxiv.org/abs/2104.14067v1
- Date: Thu, 29 Apr 2021 01:08:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-30 12:50:57.737197
- Title: Improving Fairness in Speaker Recognition
- Title(参考訳): 話者認識における公平性向上
- Authors: Gianni Fenu, Giacomo Medda, Mirko Marras, and Giacomo Meloni
- Abstract要約: 最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
- 参考スコア(独自算出の注目度): 4.94706680113206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human voice conveys unique characteristics of an individual, making voice
biometrics a key technology for verifying identities in various industries.
Despite the impressive progress of speaker recognition systems in terms of
accuracy, a number of ethical and legal concerns has been raised, specifically
relating to the fairness of such systems. In this paper, we aim to explore the
disparity in performance achieved by state-of-the-art deep speaker recognition
systems, when different groups of individuals characterized by a common
sensitive attribute (e.g., gender) are considered. In order to mitigate the
unfairness we uncovered by means of an exploratory study, we investigate
whether balancing the representation of the different groups of individuals in
the training set can lead to a more equal treatment of these demographic
groups. Experiments on two state-of-the-art neural architectures and a
large-scale public dataset show that models trained with
demographically-balanced training sets exhibit a fairer behavior on different
groups, while still being accurate. Our study is expected to provide a solid
basis for instilling beyond-accuracy objectives (e.g., fairness) in speaker
recognition.
- Abstract(参考訳): 人間の声は個人の独特な特徴を伝達し、音声バイオメトリックスは様々な産業におけるアイデンティティを検証する重要な技術となる。
話者認識システムの正確性という印象的な進歩にもかかわらず、多くの倫理的・法的懸念、特にその公平性に関する懸念が提起されている。
本稿では,現在最先端のディープスピーカー認識システムによって達成されている性能の相違について,共通感性属性(例えば,性別)を特徴とする個人集団について検討する。
探索研究によって得られた不公平さを緩和するために,学習セットにおける異なる集団の表現のバランスをとることが,これらの集団集団のより平等な扱いにつながるかどうかを検討する。
2つの最先端ニューラルアーキテクチャと大規模パブリックデータセットの実験により、人口統計学的にバランスのとれたトレーニングセットでトレーニングされたモデルが異なるグループに対して公正な行動を示すことが示されている。
本研究は,話者認識における超精度目標(例えば,公正性)の具体的基礎を提供するものと期待されている。
関連論文リスト
- Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。
本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。
また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文 参考訳(メタデータ) (2024-06-14T20:07:21Z) - Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文 参考訳(メタデータ) (2023-06-06T21:13:08Z) - Some voices are too common: Building fair speech recognition systems
using the Common Voice dataset [2.28438857884398]
我々は、フレンチ・コモン・ボイス・データセットを用いて、事前訓練されたwav2vec2.0モデルの複数の人口集団に対するバイアスを定量化する。
また、共通音声コーパスの詳細な分析を行い、考慮すべき重要な欠点を特定した。
論文 参考訳(メタデータ) (2023-06-01T11:42:34Z) - Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice
Biometrics Research [1.1160256362224619]
2012年から2021年までの訓練と評価に使用される話者認識データセットの縦断的研究を行った。
本研究は、この分野で最もよく使われているデータセットを特定し、それらの利用パターンを調べ、バイアス、公平性、その他の倫理的関心事に影響を与える属性を評価する。
論文 参考訳(メタデータ) (2023-04-07T23:05:37Z) - CIAO! A Contrastive Adaptation Mechanism for Non-Universal Facial
Expression Recognition [80.07590100872548]
本稿では、顔エンコーダの最後の層に異なるデータセットの特定の感情特性を適応させるメカニズムであるContrastive Inhibitory Adaptati On(CIAO)を提案する。
CIAOは、非常にユニークな感情表現を持つ6つの異なるデータセットに対して、表情認識性能が改善されている。
論文 参考訳(メタデータ) (2022-08-10T15:46:05Z) - Toward Fairness in Speech Recognition: Discovery and mitigation of
performance disparities [10.917512121301135]
製品規模のAIアシスタント音声認識システムから得られたデータを用いて,性能格差の発見と緩和の両面での最初の発見を報告する。
公平さを緩和するために、表現不足のコホートのオーバーサンプリングや、追加入力変数による話者コホートメンバシップのモデル化は、トップとボトムのパフォーマンスのコホート間のギャップを減少させる。
論文 参考訳(メタデータ) (2022-07-22T21:33:29Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Bias in Automated Speaker Recognition [0.0]
自動話者認識における話者検証,音声バイオメトリック,コアタスクの機械学習開発ワークフローにおけるバイアスについて検討する。
我々は、よく知られたVoxCeleb Speaker Recognition Challengeにおいて、すべての発達段階にバイアスが存在することを示す。
影響を受けたのは女性話者と非米国国籍で、パフォーマンスが著しく低下している。
論文 参考訳(メタデータ) (2022-01-24T06:48:57Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Measuring Fairness Under Unawareness of Sensitive Attributes: A
Quantification-Based Approach [131.20444904674494]
センシティブな属性の無意識下でのグループフェアネスを測定する問題に取り組む。
定量化手法は, フェアネスと無意識の問題に対処するのに特に適していることを示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:46Z) - Disentangled Speech Embeddings using Cross-modal Self-supervision [119.94362407747437]
本研究では,映像における顔と音声の自然な相互同期を生かした自己教師型学習目標を提案する。
我々は,(1)両表現に共通する低レベルの特徴を共有する2ストリームアーキテクチャを構築し,(2)これらの要因を明示的に解消する自然なメカニズムを提供する。
論文 参考訳(メタデータ) (2020-02-20T14:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。