論文の概要: Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice
Biometrics Research
- arxiv url: http://arxiv.org/abs/2304.03858v3
- Date: Fri, 4 Aug 2023 15:10:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 23:21:31.012143
- Title: Benchmark Dataset Dynamics, Bias and Privacy Challenges in Voice
Biometrics Research
- Title(参考訳): 音声バイオメトリックス研究におけるベンチマークデータセットのダイナミクスとバイアス,プライバシ問題
- Authors: Casandra Rusti, Anna Leschanowsky, Carolyn Quinlan, Michaela Pnacek
(ova), Lauriane Gorce, Wiebke (Toussaint) Hutiri
- Abstract要約: 2012年から2021年までの訓練と評価に使用される話者認識データセットの縦断的研究を行った。
本研究は、この分野で最もよく使われているデータセットを特定し、それらの利用パターンを調べ、バイアス、公平性、その他の倫理的関心事に影響を与える属性を評価する。
- 参考スコア(独自算出の注目度): 0.6465251961564606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker recognition is a widely used voice-based biometric technology with
applications in various industries, including banking, education, recruitment,
immigration, law enforcement, healthcare, and well-being. However, while
dataset evaluations and audits have improved data practices in face recognition
and other computer vision tasks, the data practices in speaker recognition have
gone largely unquestioned. Our research aims to address this gap by exploring
how dataset usage has evolved over time and what implications this has on bias,
fairness and privacy in speaker recognition systems. Previous studies have
demonstrated the presence of historical, representation, and measurement biases
in popular speaker recognition benchmarks. In this paper, we present a
longitudinal study of speaker recognition datasets used for training and
evaluation from 2012 to 2021. We survey close to 700 papers to investigate
community adoption of datasets and changes in usage over a crucial time period
where speaker recognition approaches transitioned to the widespread adoption of
deep neural networks. Our study identifies the most commonly used datasets in
the field, examines their usage patterns, and assesses their attributes that
affect bias, fairness, and other ethical concerns. Our findings suggest areas
for further research on the ethics and fairness of speaker recognition
technology.
- Abstract(参考訳): 話者認識は、銀行、教育、採用、移民、法執行、医療、健康など様々な産業で応用されている音声ベースの生体認証技術である。
しかし、データセットの評価と監査は、顔認識やその他のコンピュータビジョンタスクにおけるデータプラクティスを改善してきたが、話者認識におけるデータプラクティスは、ほとんど疑わしくなかった。
私たちの研究は、データセットの利用が時間とともにどのように進化してきたか、そしてこれが話者認識システムにおけるバイアス、公平性、プライバシーにどのような影響を及ぼすのかを探求することで、このギャップに対処することを目的としています。
これまでの研究では、一般的な話者認識ベンチマークにおける歴史的、表現的、測定バイアスの存在が示されている。
本稿では,2012年から2021年までの訓練と評価に用いる話者認識データセットの縦断的研究を行う。
我々は,話者認識アプローチが深層ニューラルネットワークの普及に移行した重要な期間における,データセットのコミュニティ導入と利用状況の変化を調査するため,700件近い論文を調査した。
本研究は,この分野で最も一般的に使用されるデータセットを特定し,その使用パターンを調査し,バイアス,公平性,その他の倫理的懸念に影響を与える属性を評価する。
以上より,話者認識技術の倫理と公平性に関するさらなる研究分野が示唆された。
関連論文リスト
- Considerations for Ethical Speech Recognition Datasets [0.799536002595393]
自動音声認識をケーススタディとして使用し、倫理的音声データセットが責任あるAIアプリケーションに対して持つべき特性について検討する。
トレーニングされたモデルを改善するために必要な多様性の問題、包括的プラクティス、必要な考慮事項を紹介します。
我々は、データ対象の法的・プライバシー保護、ユーザ人口統計とニーズに応じたターゲットデータサンプリング、モデル故障時の説明可能性と説明責任を保証する適切なメタデータについて論じる。
論文 参考訳(メタデータ) (2023-05-03T12:38:14Z) - Evaluating generative audio systems and their metrics [80.97828572629093]
本報告では,従来提案されていた音声再建のための目標尺度のセットと,聴取研究を併用して,最先端のアプローチについて検討する。
その結果、現在使われている客観的指標は、現在のシステムの知覚的品質を記述するのに不十分であることが示唆された。
論文 参考訳(メタデータ) (2022-08-31T21:48:34Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Bias in Automated Speaker Recognition [0.0]
自動話者認識における話者検証,音声バイオメトリック,コアタスクの機械学習開発ワークフローにおけるバイアスについて検討する。
我々は、よく知られたVoxCeleb Speaker Recognition Challengeにおいて、すべての発達段階にバイアスが存在することを示す。
影響を受けたのは女性話者と非米国国籍で、パフォーマンスが著しく低下している。
論文 参考訳(メタデータ) (2022-01-24T06:48:57Z) - Improving Fairness in Speaker Recognition [4.94706680113206]
最先端の深層話者認識システムによって達成される性能の格差を調査します。
統計学的にバランスのとれたトレーニングセットで訓練されたモデルでは,異なるグループでより公平な行動を示すが,精度は高い。
論文 参考訳(メタデータ) (2021-04-29T01:08:53Z) - Deep Gait Recognition: A Survey [15.47582611826366]
歩行認識は、歩き方に基づいて個人を識別することを目的とした魅力的な生体測定モダリティです。
ディープラーニングは、差別的な表現を自動的に学習する能力によって、2015年からこの分野の研究環境を再構築した。
深層学習による歩行認識のブレークスルーと最近の展開を総合的に紹介します。
論文 参考訳(メタデータ) (2021-02-18T18:49:28Z) - Few Shot Text-Independent speaker verification using 3D-CNN [0.0]
我々は,ごく少数の学習データを用いて話者の身元を検証するための新しい手法を提案してきた。
VoxCeleb1データセットで行った実験によると、非常に少ないデータでトレーニングしても、提案されたモデルの精度は、テキストに依存しない話者検証において、アートモデルの状態に近い。
論文 参考訳(メタデータ) (2020-08-25T15:03:29Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z) - Survey on the Analysis and Modeling of Visual Kinship: A Decade in the
Making [66.72253432908693]
親和性認識は多くの実践的応用において難しい問題である。
我々は、多くの人にその見解を刺激した公開リソースとデータ課題についてレビューする。
10周年記念には、さまざまなkinベースのタスクのためのデモコードが用意されている。
論文 参考訳(メタデータ) (2020-06-29T13:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。