論文の概要: SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions
- arxiv url: http://arxiv.org/abs/2509.17091v2
- Date: Mon, 29 Sep 2025 13:46:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.561857
- Title: SVeritas: Benchmark for Robust Speaker Verification under Diverse Conditions
- Title(参考訳): SVeritas: 多様な条件下でのロバスト話者検証のためのベンチマーク
- Authors: Massa Baali, Sarthak Bisht, Francisco Teixeira, Kateryna Shapovalenko, Rita Singh, Bhiksha Raj,
- Abstract要約: 話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されている。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
- 参考スコア(独自算出の注目度): 54.34001921326444
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Speaker verification (SV) models are increasingly integrated into security, personalization, and access control systems, yet their robustness to many real-world challenges remains inadequately benchmarked. These include a variety of natural and maliciously created conditions causing signal degradations or mismatches between enrollment and test data, impacting performance. Existing benchmarks evaluate only subsets of these conditions, missing others entirely. We introduce SVeritas, a comprehensive Speaker Verification tasks benchmark suite, assessing SV systems under stressors like recording duration, spontaneity, content, noise, microphone distance, reverberation, channel mismatches, audio bandwidth, codecs, speaker age, and susceptibility to spoofing and adversarial attacks. While several benchmarks do exist that each cover some of these issues, SVeritas is the first comprehensive evaluation that not only includes all of these, but also several other entirely new, but nonetheless important, real-life conditions that have not previously been benchmarked. We use SVeritas to evaluate several state-of-the-art SV models and observe that while some architectures maintain stability under common distortions, they suffer substantial performance degradation in scenarios involving cross-language trials, age mismatches, and codec-induced compression. Extending our analysis across demographic subgroups, we further identify disparities in robustness across age groups, gender, and linguistic backgrounds. By standardizing evaluation under realistic and synthetic stress conditions, SVeritas enables precise diagnosis of model weaknesses and establishes a foundation for advancing equitable and reliable speaker verification systems.
- Abstract(参考訳): 話者検証(SV)モデルは、セキュリティ、パーソナライゼーション、アクセス制御システムにますます統合されているが、現実の多くの課題に対する堅牢性は、十分にベンチマークされていない。
これには、さまざまな自然で悪意のある生成条件が含まれており、信号の劣化や、登録データとテストデータのミスマッチを引き起こし、パフォーマンスに影響を及ぼす。
既存のベンチマークでは、これらの条件のサブセットのみを評価しており、他は完全に欠落している。
SVeritasは、録音時間、自発性、コンテンツ、ノイズ、マイクロホン距離、残響、チャンネルミスマッチ、オーディオ帯域幅、コーデック、話者年齢、スプーフィングおよび敵攻撃に対する感受性などのストレス下でのSVシステムの評価を行う総合的な話者検証タスクベンチマークスイートである。
いくつかのベンチマークがあるが、SVeritasはこれらすべての問題を網羅する最初の総合的な評価であり、これら全てを含むだけでなく、全く新しいものもいくつかある。
我々は、SVeritasを用いて、いくつかの最先端SVモデルを評価し、いくつかのアーキテクチャが共通の歪みの下で安定性を維持しながら、言語間トライアル、年齢ミスマッチ、コーデックによる圧縮を含むシナリオにおいて、大幅な性能劣化を被っていることを観察する。
人口統計学的サブグループにまたがって分析を拡張し、年齢層、性別、言語学的背景におけるロバスト性の違いをさらに特定する。
現実的および合成的なストレス条件下での評価を標準化することにより、SVeritasはモデルの弱点の正確な診断を可能にし、公平で信頼性の高い話者検証システムを構築するための基盤を確立する。
関連論文リスト
- TalkVid: A Large-Scale Diversified Dataset for Audio-Driven Talking Head Synthesis [74.31705485094096]
7729のユニークなスピーカーから1244時間のビデオを含む、大規模で高品質で多様なデータセットであるTalkVidを紹介した。
TalkVidは、動作の安定性、美的品質、顔のディテールを厳格にフィルタする、原則付き多段階自動パイプラインを通じてキュレートされる。
TalkVid-Benchは、500クリップの階層化された評価セットで、重要な人口統計学と言語学の軸間で慎重にバランスを取ります。
論文 参考訳(メタデータ) (2025-08-19T08:31:15Z) - Beyond Easy Wins: A Text Hardness-Aware Benchmark for LLM-generated Text Detection [0.38233569758620056]
本稿では,現実的かつ公平な評価を優先する,AIテキスト検出のための新しい評価パラダイムを提案する。
我々のベンチマークであるShielDは、信頼性と安定性の両要素を統一評価基準に統合することにより、これらの制限に対処する。
制御可能な硬度パラメータを組み込んだモデル非依存型ヒューマニフィケーションフレームワークを開発した。
論文 参考訳(メタデータ) (2025-07-21T06:37:27Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - Assessing the Generalization Gap of Learning-Based Speech Enhancement
Systems in Noisy and Reverberant Environments [0.7366405857677227]
目に見えない条件への一般化は、通常、新しい音声、雑音または部屋のインパルス応答データベースでシステムをテストすることで評価される。
本研究では,テスト条件に基づいてトレーニングした参照モデルを用いた一般化評価フレームワークを提案する。
提案手法を用いて,フィードフォワードニューラルネットワーク(FFNN),ConvTasNet,DCCRN,MANNERの一般化ポテンシャルを評価する。
論文 参考訳(メタデータ) (2023-09-12T12:51:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。