論文の概要: DFKI-Speech System for WildSpoof Challenge: A robust framework for SASV In-the-Wild
- arxiv url: http://arxiv.org/abs/2602.02286v1
- Date: Mon, 02 Feb 2026 16:27:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.289003
- Title: DFKI-Speech System for WildSpoof Challenge: A robust framework for SASV In-the-Wild
- Title(参考訳): DFKI-Speech System for WildSpoof Challenge: A robust framework for SASV in-the-Wild
- Authors: Arnab Das, Yassine El Kheir, Enes Erdem Erdogan, Feidi Kallel, Tim Polzehl, Sebastian Moeller,
- Abstract要約: 本研究では,スプーフィング検知器と話者検証ネットワークをタンデムで動作させる頑健なSASVフレームワークを提案する。
話者検証には、複数のスケールで2Dと1Dの機能を融合する低複雑さ畳み込みニューラルネットワークを適用する。
固定コホートに基づくASノルムスコア正規化とモデルアンサンブルは、話者検証システムの識別能力を高めるために用いられる。
- 参考スコア(独自算出の注目度): 6.7142637668069405
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents the DFKI-Speech system developed for the WildSpoof Challenge under the Spoofing aware Automatic Speaker Verification (SASV) track. We propose a robust SASV framework in which a spoofing detector and a speaker verification (SV) network operate in tandem. The spoofing detector employs a self-supervised speech embedding extractor as the frontend, combined with a state-of-the-art graph neural network backend. In addition, a top-3 layer based mixture-of-experts (MoE) is used to fuse high-level and low-level features for effective spoofed utterance detection. For speaker verification, we adapt a low-complexity convolutional neural network that fuses 2D and 1D features at multiple scales, trained with the SphereFace loss. Additionally, contrastive circle loss is applied to adaptively weight positive and negative pairs within each training batch, enabling the network to better distinguish between hard and easy sample pairs. Finally, fixed imposter cohort based AS Norm score normalization and model ensembling are used to further enhance the discriminative capability of the speaker verification system.
- Abstract(参考訳): 本稿では,Spoofing aware Automatic Speaker Verification (SASV) トラック下でのWildSpoof Challengeのために開発されたDFKI-Speechシステムについて述べる。
本稿では,スプーフィング検出器と話者検証(SV)ネットワークをタンデムで動作させる頑健なSASVフレームワークを提案する。
スプーフィング検出器は、最先端のグラフニューラルネットワークバックエンドと組み合わせて、フロントエンドとして自己教師付き音声埋め込み抽出器を使用する。
さらに,トップ3層をベースとしたMoEを用いて,高レベル・低レベルな特徴を融合させて効果的な発声検出を行う。
話者検証には、SphereFace損失をトレーニングした、複数のスケールで2Dと1Dの機能を融合する低複雑さ畳み込みニューラルネットワークを適用する。
さらに、トレーニングバッチ毎に、適応的に重み付けされた正と負のペアに対して、対照的な円損失を適用し、ネットワークがハードと簡単なサンプルペアをよりよく区別できるようにする。
最後に、固定インポスタコホートに基づくASノルムスコア正規化とモデルアンサンブルを用いて、話者検証システムの識別能力をさらに向上させる。
関連論文リスト
- Malacopula: adversarial automatic speaker verification attacks using a neural-based generalised Hammerstein model [23.942915856543387]
本稿では,ニューラルベースで一般化されたハマースタインモデルであるマラコプラについて述べる。
非線形プロセスを用いて音声の発話を修正することで、マラコプラはスプーフィング攻撃の有効性を高める。
論文 参考訳(メタデータ) (2024-08-17T21:58:11Z) - Generalizing Speaker Verification for Spoof Awareness in the Embedding
Space [30.094557217931563]
ASVシステムは様々な種類の敵を用いて偽造することができる。
本稿では,ディープニューラルネットワークに基づく新しいバックエンド分類手法を提案する。
ASVspoof 2019論理アクセスデータセットで実験が行われる。
論文 参考訳(メタデータ) (2024-01-20T07:30:22Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。