論文の概要: Design Guidelines for Inclusive Speaker Verification Evaluation Datasets
- arxiv url: http://arxiv.org/abs/2204.02281v1
- Date: Tue, 5 Apr 2022 15:28:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-06 15:28:38.807731
- Title: Design Guidelines for Inclusive Speaker Verification Evaluation Datasets
- Title(参考訳): 包括的話者検証評価データセットの設計ガイドライン
- Authors: Wiebke Toussaint Hutiri, Lauriane Gorce, Aaron Yi Ding
- Abstract要約: 話者検証(SV)は、アクセス制御を備えた数十億の音声対応デバイスを提供し、音声駆動技術のセキュリティを保証する。
現在のSV評価プラクティスは偏見を評価するには不十分であり、実際の使用シナリオを代表してではなく、過度に単純化され、ユーザを集約している。
本稿では,これらの欠点に対処するSV評価データセットを構築するための設計ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 0.6015898117103067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker verification (SV) provides billions of voice-enabled devices with
access control, and ensures the security of voice-driven technologies. As a
type of biometrics, it is necessary that SV is unbiased, with consistent and
reliable performance across speakers irrespective of their demographic, social
and economic attributes. Current SV evaluation practices are insufficient for
evaluating bias: they are over-simplified and aggregate users, not
representative of real-life usage scenarios, and consequences of errors are not
accounted for. This paper proposes design guidelines for constructing SV
evaluation datasets that address these short-comings. We propose a schema for
grading the difficulty of utterance pairs, and present an algorithm for
generating inclusive SV datasets. We empirically validate our proposed method
in a set of experiments on the VoxCeleb1 dataset. Our results confirm that the
count of utterance pairs/speaker, and the difficulty grading of utterance pairs
have a significant effect on evaluation performance and variability. Our work
contributes to the development of SV evaluation practices that are inclusive
and fair.
- Abstract(参考訳): 話者認証(sv)は何十億もの音声対応デバイスにアクセス制御を提供し、音声駆動技術の安全性を保証する。
バイオメトリックスの一種として、svは、その人口、社会的、経済的属性に関係なく、話者間で一貫性があり、信頼性の高いパフォーマンスを持つ。
現在のSV評価プラクティスは、過度に単純化され、ユーザを集約し、実際の使用シナリオを代表していないため、バイアスを評価するには不十分である。
本稿では,これらの欠点に対処するsv評価データセットを構築するための設計ガイドラインを提案する。
本稿では,発話ペアの難易度を評価するためのスキーマを提案し,包括的SVデータセットを生成するアルゴリズムを提案する。
voxceleb1データセットの一連の実験において,提案手法を実証的に検証した。
その結果, 発話対/話者数, 発声対の格付けの難しさは, 評価性能と変動性に有意な影響を及ぼすことがわかった。
私たちの仕事は、包括的で公平なsv評価プラクティスの開発に寄与します。
関連論文リスト
- Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - SVVAD: Personal Voice Activity Detection for Speaker Verification [24.57668015470307]
話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。
実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2023-05-31T05:59:33Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - Voice Spoofing Countermeasures: Taxonomy, State-of-the-art, experimental
analysis of generalizability, open challenges, and the way forward [2.393661358372807]
本報告では,手作り特徴,ディープラーニング,エンドツーエンド,汎用スプーフィング対策ソリューションを用いたスプーフィング検出に関する文献のレビューを行う。
本稿では,これらの対策の有効性をいくつかのデータセットで報告し,コーパス間で評価する。
論文 参考訳(メタデータ) (2022-10-02T03:53:37Z) - SVEva Fair: A Framework for Evaluating Fairness in Speaker Verification [1.2437226707039446]
話者認証は、音声アシスタントへのアクセスを可能にする生体認証の一種である。
公平性の指標が欠如しているため、モデルパフォーマンスがサブグループによってどのように異なるかはほとんど分かっていない。
我々は,話者検証コンポーネントの妥当性を評価するための,アクセシブルで動作可能な,モデルに依存しないフレームワークであるSVEva Fairを開発した。
論文 参考訳(メタデータ) (2021-07-26T09:15:46Z) - CoCo: Controllable Counterfactuals for Evaluating Dialogue State
Trackers [92.5628632009802]
本稿では,このギャップを橋渡しし,新たなシナリオにおける対話状態追跡(DST)モデルを評価するための制御可能な対策(CoCo)を提案する。
CoCoは、2つのステップで新しい会話シナリオを生成する: (i) スロットをドロップして追加し、スロット値を置き換えて、 (ii) (i) で条件付きで対話フローと整合する対実会話生成。
人間による評価では、COCO生成された会話は95%以上の精度でユーザー目標を完璧に反映し、元の会話と同じくらい人間らしくなっている。
論文 参考訳(メタデータ) (2020-10-24T09:39:35Z) - Towards Understanding Sample Variance in Visually Grounded Language
Generation: Evaluations and Observations [67.4375210552593]
視覚的基盤言語生成において,重要だがしばしば無視される問題を理解するために実験を設計する。
人間にはさまざまなユーティリティと視覚的注意があるので、マルチ参照データセットのサンプルのばらつきはモデルの性能にどのように影響しますか?
人為的な参照は、異なるデータセットやタスクで大きく変化する可能性があり、それぞれのタスクの性質が明らかになる。
論文 参考訳(メタデータ) (2020-10-07T20:45:14Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。