論文の概要: Design Guidelines for Inclusive Speaker Verification Evaluation Datasets
- arxiv url: http://arxiv.org/abs/2204.02281v2
- Date: Tue, 13 Sep 2022 13:05:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 16:06:31.656929
- Title: Design Guidelines for Inclusive Speaker Verification Evaluation Datasets
- Title(参考訳): 包括的話者検証評価データセットの設計ガイドライン
- Authors: Wiebke Toussaint Hutiri, Lauriane Gorce, Aaron Yi Ding
- Abstract要約: 話者検証(SV)は、アクセス制御を備えた数十億の音声対応デバイスを提供し、音声駆動技術のセキュリティを保証する。
現在のSV評価プラクティスは偏見を評価するには不十分であり、実際の使用シナリオを代表してではなく、過度に単純化され、ユーザを集約している。
本稿では,これらの欠点に対処するSV評価データセットを構築するための設計ガイドラインを提案する。
- 参考スコア(独自算出の注目度): 0.6015898117103067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Speaker verification (SV) provides billions of voice-enabled devices with
access control, and ensures the security of voice-driven technologies. As a
type of biometrics, it is necessary that SV is unbiased, with consistent and
reliable performance across speakers irrespective of their demographic, social
and economic attributes. Current SV evaluation practices are insufficient for
evaluating bias: they are over-simplified and aggregate users, not
representative of real-life usage scenarios, and consequences of errors are not
accounted for. This paper proposes design guidelines for constructing SV
evaluation datasets that address these short-comings. We propose a schema for
grading the difficulty of utterance pairs, and present an algorithm for
generating inclusive SV datasets. We empirically validate our proposed method
in a set of experiments on the VoxCeleb1 dataset. Our results confirm that the
count of utterance pairs/speaker, and the difficulty grading of utterance pairs
have a significant effect on evaluation performance and variability. Our work
contributes to the development of SV evaluation practices that are inclusive
and fair.
- Abstract(参考訳): 話者認証(sv)は何十億もの音声対応デバイスにアクセス制御を提供し、音声駆動技術の安全性を保証する。
バイオメトリックスの一種として、svは、その人口、社会的、経済的属性に関係なく、話者間で一貫性があり、信頼性の高いパフォーマンスを持つ。
現在のSV評価プラクティスは、過度に単純化され、ユーザを集約し、実際の使用シナリオを代表していないため、バイアスを評価するには不十分である。
本稿では,これらの欠点に対処するsv評価データセットを構築するための設計ガイドラインを提案する。
本稿では,発話ペアの難易度を評価するためのスキーマを提案し,包括的SVデータセットを生成するアルゴリズムを提案する。
voxceleb1データセットの一連の実験において,提案手法を実証的に検証した。
その結果, 発話対/話者数, 発声対の格付けの難しさは, 評価性能と変動性に有意な影響を及ぼすことがわかった。
私たちの仕事は、包括的で公平なsv評価プラクティスの開発に寄与します。
関連論文リスト
- Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - Toward Practical Automatic Speech Recognition and Post-Processing: a
Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。
このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。
我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文 参考訳(メタデータ) (2024-01-26T03:42:45Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - SVVAD: Personal Voice Activity Detection for Speaker Verification [24.57668015470307]
話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。
実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
論文 参考訳(メタデータ) (2023-05-31T05:59:33Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。
参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。
対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文 参考訳(メタデータ) (2023-05-24T02:52:48Z) - SVEva Fair: A Framework for Evaluating Fairness in Speaker Verification [1.2437226707039446]
話者認証は、音声アシスタントへのアクセスを可能にする生体認証の一種である。
公平性の指標が欠如しているため、モデルパフォーマンスがサブグループによってどのように異なるかはほとんど分かっていない。
我々は,話者検証コンポーネントの妥当性を評価するための,アクセシブルで動作可能な,モデルに依存しないフレームワークであるSVEva Fairを開発した。
論文 参考訳(メタデータ) (2021-07-26T09:15:46Z) - Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。
本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文 参考訳(メタデータ) (2020-06-10T20:20:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。