論文の概要: Bias in Automated Speaker Recognition
- arxiv url: http://arxiv.org/abs/2201.09486v1
- Date: Mon, 24 Jan 2022 06:48:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-26 04:11:16.358684
- Title: Bias in Automated Speaker Recognition
- Title(参考訳): 話者自動認識におけるバイアス
- Authors: Wiebke Toussaint and Aaron Ding
- Abstract要約: 自動話者認識における話者検証,音声バイオメトリック,コアタスクの機械学習開発ワークフローにおけるバイアスについて検討する。
我々は、よく知られたVoxCeleb Speaker Recognition Challengeにおいて、すべての発達段階にバイアスが存在することを示す。
影響を受けたのは女性話者と非米国国籍で、パフォーマンスが著しく低下している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated speaker recognition uses data processing to identify speakers by
their voice. Today, automated speaker recognition technologies are deployed on
billions of smart devices and in services such as call centres. Despite their
wide-scale deployment and known sources of bias in face recognition and natural
language processing, bias in automated speaker recognition has not been studied
systematically. We present an in-depth empirical and analytical study of bias
in the machine learning development workflow of speaker verification, a voice
biometric and core task in automated speaker recognition. Drawing on an
established framework for understanding sources of harm in machine learning, we
show that bias exists at every development stage in the well-known VoxCeleb
Speaker Recognition Challenge, including model building, implementation, and
data generation. Most affected are female speakers and non-US nationalities,
who experience significant performance degradation. Leveraging the insights
from our findings, we make practical recommendations for mitigating bias in
automated speaker recognition, and outline future research directions.
- Abstract(参考訳): 自動話者認識は、データ処理を使用して話者を音声で識別する。
現在、自動話者認識技術は何十億ものスマートデバイスやコールセンタなどのサービスにデプロイされている。
大規模な展開と顔認識と自然言語処理におけるバイアスの既知源にもかかわらず、自動話者認識のバイアスは体系的に研究されていない。
自動話者認識における音声バイオメトリックおよび中核的タスクである話者検証の機械学習開発ワークフローにおけるバイアスの詳細な実験的および分析的研究について述べる。
機械学習の害源を理解するための確立された枠組みに基づいて、有名なVoxCeleb Speaker Recognition Challengeにおいて、モデル構築、実装、データ生成を含むすべての開発段階でバイアスが存在することを示す。
最も影響を受けるのは女性話者と非米国国籍であり、パフォーマンスが著しく低下する。
この知見を活かし,話者認識におけるバイアス軽減のための実用的な提案を行い,今後の研究方向性について概説する。
関連論文リスト
- Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice
Biometrics Research [1.1160256362224619]
2012年から2021年までの訓練と評価に使用される話者認識データセットの縦断的研究を行った。
本研究は、この分野で最もよく使われているデータセットを特定し、それらの利用パターンを調べ、バイアス、公平性、その他の倫理的関心事に影響を与える属性を評価する。
論文 参考訳(メタデータ) (2023-04-07T23:05:37Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Towards End-to-end Unsupervised Speech Recognition [120.4915001021405]
我々は、すべてのオーディオサイドの事前処理を廃止し、アーキテクチャの改善により精度を向上させるwvuを紹介する。
さらに、モデル予測を入力に結びつける補助的な自己教師対象を導入する。
実験により、vvuimは概念的にシンプルでありながら、異なる言語にわたる教師なしの認識結果を向上することが示された。
論文 参考訳(メタデータ) (2022-04-05T21:22:38Z) - Self-supervised Speaker Recognition Training Using Human-Machine
Dialogues [22.262550043863445]
顧客とスマートスピーカーデバイス間の対話を利用して、話者認識モデルを事前訓練する方法を検討する。
本稿では,その音響的均一性に基づいて対話から選択的に学習する効果的な拒絶機構を提案する。
実験により,提案手法は従来よりも優れた性能向上をもたらすことが示された。
論文 参考訳(メタデータ) (2022-02-07T19:44:54Z) - Speaker Normalization for Self-supervised Speech Emotion Recognition [16.044405846513495]
特徴表現から話者特性を正規化しながら、音声感情認識タスクを学習する勾配に基づく逆学習フレームワークを提案する。
提案手法は話者に依存しない設定と話者に依存しない設定の両方において有効であることを示すとともに,難易度の高いIEMOCAPデータセットに対する新しい最先端結果を得る。
論文 参考訳(メタデータ) (2022-02-02T19:30:47Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - A Machine of Few Words -- Interactive Speaker Recognition with
Reinforcement Learning [35.36769027019856]
対話型話者認識(ISR)と呼ばれる自動話者認識のための新しいパラダイムを提案する。
このパラダイムでは、個人化された発話をリクエストすることで、話者の表現を段階的に構築することを目的としている。
提案手法は,音声信号量が少ない場合に優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-08-07T12:44:08Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z) - Speaker Diarization with Lexical Information [59.983797884955]
本研究では,音声認識による語彙情報を活用した話者ダイアリゼーション手法を提案する。
本稿では,話者クラスタリングプロセスに単語レベルの話者回転確率を組み込んだ話者ダイアリゼーションシステムを提案し,全体的なダイアリゼーション精度を向上させる。
論文 参考訳(メタデータ) (2020-04-13T17:16:56Z) - Speech Enhancement using Self-Adaptation and Multi-Head Self-Attention [70.82604384963679]
本稿では,補助的話者認識機能を用いた音声強調のための自己適応手法について検討する。
テスト発話から直接適応に用いる話者表現を抽出する。
論文 参考訳(メタデータ) (2020-02-14T05:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。