論文の概要: USTC-KXDIGIT System Description for ASVspoof5 Challenge
- arxiv url: http://arxiv.org/abs/2409.01695v1
- Date: Tue, 3 Sep 2024 08:28:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 02:30:20.800069
- Title: USTC-KXDIGIT System Description for ASVspoof5 Challenge
- Title(参考訳): USTC-KXDIGIT System Description for ASVspoof5 Challenge
- Authors: Yihao Chen, Haochen Wu, Nan Jiang, Xiang Xia, Qing Gu, Yunqi Hao, Pengfei Cai, Yu Guan, Jialong Wang, Weilin Xie, Lei Fang, Sian Fang, Yan Song, Wu Guo, Lin Liu, Minqiang Xu,
- Abstract要約: ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は閉条件で0.2814 min-aDCF、開条件で0.0756 min-aDCFを達成し、優れた性能を示した。
- 参考スコア(独自算出の注目度): 30.962424920219224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes the USTC-KXDIGIT system submitted to the ASVspoof5 Challenge for Track 1 (speech deepfake detection) and Track 2 (spoofing-robust automatic speaker verification, SASV). Track 1 showcases a diverse range of technical qualities from potential processing algorithms and includes both open and closed conditions. For these conditions, our system consists of a cascade of a frontend feature extractor and a back-end classifier. We focus on extensive embedding engineering and enhancing the generalization of the back-end classifier model. Specifically, the embedding engineering is based on hand-crafted features and speech representations from a self-supervised model, used for closed and open conditions, respectively. To detect spoof attacks under various adversarial conditions, we trained multiple systems on an augmented training set. Additionally, we used voice conversion technology to synthesize fake audio from genuine audio in the training set to enrich the synthesis algorithms. To leverage the complementary information learned by different model architectures, we employed activation ensemble and fused scores from different systems to obtain the final decision score for spoof detection. During the evaluation phase, the proposed methods achieved 0.3948 minDCF and 14.33% EER in the close condition, and 0.0750 minDCF and 2.59% EER in the open condition, demonstrating the robustness of our submitted systems under adversarial conditions. In Track 2, we continued using the CM system from Track 1 and fused it with a CNN-based ASV system. This approach achieved 0.2814 min-aDCF in the closed condition and 0.0756 min-aDCF in the open condition, showcasing superior performance in the SASV system.
- Abstract(参考訳): 本稿では,ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声ロバスト自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
これらの条件に対して,本システムは,フロントエンド特徴抽出器とバックエンド分類器のカスケードから構成される。
本研究は,バックエンド分類モデルの広範な埋め込み技術と一般化に焦点をあてる。
具体的には, 組込み工学は, 閉鎖条件と開放条件にそれぞれ使用する自己教師付きモデルから手作りの特徴と音声表現をベースとしている。
種々の逆境条件下でのスプーフ攻撃を検出するために,強化訓練セットを用いて複数のシステムを訓練した。
さらに、音声変換技術を用いて、実際の音声から偽音声を合成し、合成アルゴリズムを強化した。
異なるモデルアーキテクチャで学習した相補的な情報を活用するために,異なるシステムからのアクティベーションアンサンブルと融合スコアを用いて,スプーフ検出のための最終的な判定スコアを得た。
評価段階において,提案手法は閉条件で0.3948 minDCF, 14.33% EER, オープン条件で0.0750 minDCF, 2.59% EERを達成し, 対向条件下でのシステムの堅牢性を実証した。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は, 閉条件では0.2814 min-aDCF, 開条件では0.0756 min-aDCFを達成し, SASVシステムでは優れた性能を示した。
関連論文リスト
- MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - The THUEE System Description for the IARPA OpenASR21 Challenge [12.458730613670316]
本稿では,IARPAオープン音声認識チャレンジ(OpenASR21)におけるTHUEEチームの音声認識システムについて述べる。
制約条件と制約条件の双方で優れた結果が得られた。
エンコーダ/デコーダに基づくCTC/Attention ASRアーキテクチャにwav2vec2.0事前学習モデルを適用する際には,特徴抽出器が重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-06-29T14:03:05Z) - Optimizing Tandem Speaker Verification and Anti-Spoofing Systems [45.66319648049384]
本稿では,t-DCFの微分可能なバージョンを作成し,強化学習の手法を用いてタンデムシステムを直接最適化することを提案する。
この手法は,ASVSpoof19データセットにおけるt-DCFの相対的改善率を20%向上させる。
論文 参考訳(メタデータ) (2022-01-24T14:27:28Z) - STC speaker recognition systems for the NIST SRE 2021 [56.05258832139496]
本稿では,NIST 2021話者認識評価に提出されたSTCシステムについて述べる。
これらのシステムは、ディープニューラルネットワークを特徴抽出器として利用する様々なサブシステムで構成されている。
ビデオモダリティのために、大きな顔画像データセットに基づいて訓練されたRetinaFace顔検出器と深層ResNet顔埋め込み抽出器を用いた最良のソリューションを開発した。
論文 参考訳(メタデータ) (2021-11-03T15:31:01Z) - USTC-NELSLIP System Description for DIHARD-III Challenge [78.40959509760488]
我々のシステムの革新は、ダイアリゼーション問題を解決するための様々なフロントエンド技術の組み合わせにある。
私達の最もよいシステムは評価セットのトラック1および16.78%のトラック2で11.30%のDERを達成しました。
論文 参考訳(メタデータ) (2021-03-19T07:00:51Z) - A Two-Stage Approach to Device-Robust Acoustic Scene Classification [63.98724740606457]
デバイスロバスト性を改善するために,完全畳み込みニューラルネットワーク(CNN)に基づく2段階システムを提案する。
以上の結果から,提案したASCシステムにより,開発環境における最先端の精度が得られた。
クラスアクティベーションマッピングを用いたニューラルサリエンシ解析により、モデルによって学習されたパターンに関する新たな洞察が得られる。
論文 参考訳(メタデータ) (2020-11-03T03:27:18Z) - UIAI System for Short-Duration Speaker Verification Challenge 2020 [45.816875527541065]
本稿では,ショートデュレーション話者検証(SdSV)のためのUIAIエントリのシステム記述について述べる。
自動話者検証(ASV)と発話検証(UV)の異なる特徴抽出とモデリング手法について検討する。
この課題に対する主な提案は、7つのサブシステムの融合であり、これは0.072の正規化最小検出コスト関数(minDCF)と2.14%の等価エラー率(EER)をもたらす。
論文 参考訳(メタデータ) (2020-07-26T12:32:34Z) - Device-Robust Acoustic Scene Classification Based on Two-Stage
Categorization and Data Augmentation [63.98724740606457]
我々は,GT,USTC,Tencent,UKEの4つのグループからなる共同で,DCASE 2020 Challengeの第1タスク - 音響シーン分類(ASC)に取り組む。
タスク1aは、複数の(実とシミュレートされた)デバイスで記録されたオーディオ信号のASCを10種類の微細なクラスにフォーカスする。
Task 1bは、低複雑さのソリューションを使用して、データを3つの上位クラスに分類することに関心がある。
論文 参考訳(メタデータ) (2020-07-16T15:07:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。