Fugu-MT 論文翻訳(概要): Design Guidelines for Inclusive Speaker Verification Evaluation Datasets

論文の概要: Design Guidelines for Inclusive Speaker Verification Evaluation Datasets

arxiv url: http://arxiv.org/abs/2204.02281v1
Date: Tue, 5 Apr 2022 15:28:26 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-06 15:28:38.807731
Title: Design Guidelines for Inclusive Speaker Verification Evaluation Datasets
Title（参考訳）: 包括的話者検証評価データセットの設計ガイドライン
Authors: Wiebke Toussaint Hutiri, Lauriane Gorce, Aaron Yi Ding
Abstract要約: 話者検証(SV)は、アクセス制御を備えた数十億の音声対応デバイスを提供し、音声駆動技術のセキュリティを保証する。現在のSV評価プラクティスは偏見を評価するには不十分であり、実際の使用シナリオを代表してではなく、過度に単純化され、ユーザを集約している。本稿では,これらの欠点に対処するSV評価データセットを構築するための設計ガイドラインを提案する。
参考スコア（独自算出の注目度）: 0.6015898117103067
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Speaker verification (SV) provides billions of voice-enabled devices with access control, and ensures the security of voice-driven technologies. As a type of biometrics, it is necessary that SV is unbiased, with consistent and reliable performance across speakers irrespective of their demographic, social and economic attributes. Current SV evaluation practices are insufficient for evaluating bias: they are over-simplified and aggregate users, not representative of real-life usage scenarios, and consequences of errors are not accounted for. This paper proposes design guidelines for constructing SV evaluation datasets that address these short-comings. We propose a schema for grading the difficulty of utterance pairs, and present an algorithm for generating inclusive SV datasets. We empirically validate our proposed method in a set of experiments on the VoxCeleb1 dataset. Our results confirm that the count of utterance pairs/speaker, and the difficulty grading of utterance pairs have a significant effect on evaluation performance and variability. Our work contributes to the development of SV evaluation practices that are inclusive and fair.
Abstract（参考訳）: 話者認証(sv)は何十億もの音声対応デバイスにアクセス制御を提供し、音声駆動技術の安全性を保証する。バイオメトリックスの一種として、svは、その人口、社会的、経済的属性に関係なく、話者間で一貫性があり、信頼性の高いパフォーマンスを持つ。現在のSV評価プラクティスは、過度に単純化され、ユーザを集約し、実際の使用シナリオを代表していないため、バイアスを評価するには不十分である。本稿では,これらの欠点に対処するsv評価データセットを構築するための設計ガイドラインを提案する。本稿では,発話ペアの難易度を評価するためのスキーマを提案し,包括的SVデータセットを生成するアルゴリズムを提案する。 voxceleb1データセットの一連の実験において,提案手法を実証的に検証した。その結果, 発話対/話者数, 発声対の格付けの難しさは, 評価性能と変動性に有意な影響を及ぼすことがわかった。私たちの仕事は、包括的で公平なsv評価プラクティスの開発に寄与します。

関連論文リスト

Reliable and Reproducible Demographic Inference for Fairness in Face Analysis [63.46525489354455]
本稿では、従来のエンドツーエンドトレーニングをモジュラートランスファー学習アプローチで置き換える、完全に再現可能なDAIパイプラインを提案する。このパイプラインは、正確性、公正性、そしてアイデンティティ内整合性によって定義される、新たに導入された堅牢性の概念の3つの次元にわたって監査する。以上の結果から,提案手法は特に民族性において,強い基準線を上回り,その特性はより困難であることが示唆された。
論文参考訳（メタデータ） (2025-10-23T12:22:02Z)
SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions [54.34001921326444]
話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。 SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
論文参考訳（メタデータ） (2025-09-21T14:11:16Z)
EvalSVA: Multi-Agent Evaluators for Next-Gen Software Vulnerability Assessment [17.74561647070259]
ソフトウェア脆弱性(SV)評価のさまざまな側面を自律的に検討し,評価するために,マルチエージェント評価チームであるEvalSVAを紹介した。 EvalSVAは人間のようなプロセスを提供し、SVアセスメントの理由と答えの両方を生成する。
論文参考訳（メタデータ） (2024-12-11T08:00:50Z)
Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文参考訳（メタデータ） (2024-08-01T05:56:34Z)
Unveiling the Achilles' Heel of NLG Evaluators: A Unified Adversarial Framework Driven by Large Language Models [52.368110271614285]
我々は,NLG評価器に対する新しいブラックボックス対逆フレームワークであるAdvEvalを紹介する。 AdvEvalは、人間と被害者の評価者との強い意見の相違をもたらすデータを生成するために特別に調整されている。我々は,12名の被害者評価者と11名のNLGデータセットを用いて,対話,要約,質問評価などのタスクを分散した実験を行った。
論文参考訳（メタデータ） (2024-05-23T14:48:15Z)
Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文参考訳（メタデータ） (2024-05-18T02:21:32Z)
What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文参考訳（メタデータ） (2024-04-03T02:40:35Z)
Toward Practical Automatic Speech Recognition and Post-Processing: a Call for Explainable Error Benchmark Guideline [12.197453599489963]
本稿では,Error Explainable Benchmark (EEB) データセットの開発を提案する。このデータセットは、音声レベルとテキストレベルの両方を考慮しているが、モデルの欠点を詳細に理解することができる。我々の提案は、より現実世界中心の評価のための構造化された経路を提供し、ニュアンスドシステムの弱点の検出と修正を可能にします。
論文参考訳（メタデータ） (2024-01-26T03:42:45Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
SVVAD: Personal Voice Activity Detection for Speaker Verification [24.57668015470307]
話者検証(SV)において最も有用な音声特徴に適応できる話者検証に基づく音声活動検出(SVVAD)フレームワークを提案する。実験により、SVVADは、他の話者が異なる比率で混合される条件下で、同じ誤差率(EER)でベースラインを著しく上回ることが示された。
論文参考訳（メタデータ） (2023-05-31T05:59:33Z)
Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文参考訳（メタデータ） (2023-05-30T14:15:39Z)
Evaluate What You Can't Evaluate: Unassessable Quality for Generated Response [56.25966921370483]
大規模な言語モデルに基づく参照不要評価器の使用には課題がある。参照なし評価器は、異なるセマンティクス応答を持つオープンな例により適している。対話応答の質を評価するため, LLM に基づく推論不要評価器の使用にはリスクがある。
論文参考訳（メタデータ） (2023-05-24T02:52:48Z)
SVEva Fair: A Framework for Evaluating Fairness in Speaker Verification [1.2437226707039446]
話者認証は、音声アシスタントへのアクセスを可能にする生体認証の一種である。公平性の指標が欠如しているため、モデルパフォーマンスがサブグループによってどのように異なるかはほとんど分かっていない。我々は,話者検証コンポーネントの妥当性を評価するための,アクセシブルで動作可能な,モデルに依存しないフレームワークであるSVEva Fairを開発した。
論文参考訳（メタデータ） (2021-07-26T09:15:46Z)
Causal Feature Selection for Algorithmic Fairness [61.767399505764736]
データ管理の統合コンポーネントにおける公平性について検討する。本稿では,データセットの公平性を保証する特徴のサブコレクションを同定する手法を提案する。
論文参考訳（メタデータ） (2020-06-10T20:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。