論文の概要: SZU-AFS Antispoofing System for the ASVspoof 5 Challenge
- arxiv url: http://arxiv.org/abs/2408.09933v1
- Date: Mon, 19 Aug 2024 12:12:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:24:38.647682
- Title: SZU-AFS Antispoofing System for the ASVspoof 5 Challenge
- Title(参考訳): ASVスプーフ5挑戦のためのSZU-AFS防汚システム
- Authors: Yuxiong Xu, Jiafeng Zhong, Sengui Zheng, Zefeng Liu, Bin Li,
- Abstract要約: SZU-AFSアンチスプーフィングシステムはオープン条件下でASVspoof 5 Challengeのトラック1のために設計された。
最終融合システムは、評価セットで0.115のminDCFと4.04%のEERを達成する。
- 参考スコア(独自算出の注目度): 3.713577625357432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents the SZU-AFS anti-spoofing system, designed for Track 1 of the ASVspoof 5 Challenge under open conditions. The system is built with four stages: selecting a baseline model, exploring effective data augmentation (DA) methods for fine-tuning, applying a co-enhancement strategy based on gradient norm aware minimization (GAM) for secondary fine-tuning, and fusing logits scores from the two best-performing fine-tuned models. The system utilizes the Wav2Vec2 front-end feature extractor and the AASIST back-end classifier as the baseline model. During model fine-tuning, three distinct DA policies have been investigated: single-DA, random-DA, and cascade-DA. Moreover, the employed GAM-based co-enhancement strategy, designed to fine-tune the augmented model at both data and optimizer levels, helps the Adam optimizer find flatter minima, thereby boosting model generalization. Overall, the final fusion system achieves a minDCF of 0.115 and an EER of 4.04% on the evaluation set.
- Abstract(参考訳): 本稿では,オープン条件下でのASVspoof 5 Challengeのトラック1用に設計されたSZU-AFSアンチスプーフィングシステムについて述べる。
このシステムは、ベースラインモデルの選択、微調整のための効果的なデータ拡張(DA)手法の探索、二次微調整のための勾配ノルム認識最小化(GAM)に基づくコエンハンスメント戦略の適用、2つの最高の微調整モデルのロジットスコアの融合という4つの段階で構成されている。
このシステムは、Wav2Vec2フロントエンド特徴抽出器とAASISTバックエンド分類器をベースラインモデルとして利用する。
モデル微調整中、単一DA、ランダムDA、カスケードDAの3つの異なるDAポリシーが研究されている。
さらに、データとオプティマイザレベルの両方で拡張モデルを微調整するために設計されたGAMベースのコエンハンスメント戦略は、Adamオプティマイザがフラットなミニマを見つけるのに役立つため、モデル一般化が促進される。
全体として、最終融合システムは、評価セットで0.115のminDCFと4.04%のEERを達成する。
関連論文リスト
- Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - D4AM: A General Denoising Framework for Downstream Acoustic Models [45.04967351760919]
音声強調(SE)は、自動音声認識(ASR)システムを支援するフロントエンド戦略として用いられる。
既存のSE手法の訓練目的は、未知のASRシステムに向けたトレーニングのために、音声テキストとノイズクリーンなペアデータを統合するのに完全には有効ではない。
そこで我々は,様々な下流音響モデルのための一般的なデノベーションフレームワークD4AMを提案する。
論文 参考訳(メタデータ) (2023-11-28T08:27:27Z) - Augmenting conformers with structured state-space sequence models for
online speech recognition [41.444671189679994]
モデルが左の文脈のみにアクセスするオンライン音声認識は、ASRシステムにとって重要かつ困難なユースケースである。
本研究では、構造化状態空間シーケンスモデル(S4)を組み込んだオンラインASRのためのニューラルエンコーダの強化について検討する。
我々はS4モデルの変種を比較するために系統的アブレーション研究を行い、それらを畳み込みと組み合わせた2つの新しいアプローチを提案する。
我々の最良のモデルは、LibrispeechによるテストセットでWERの4.01%/8.53%を達成する。
論文 参考訳(メタデータ) (2023-09-15T17:14:17Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - DMSA: Dynamic Multi-scale Unsupervised Semantic Segmentation Based on
Adaptive Affinity [11.080515677051455]
このフレームワークは、Atrous Spatial Pyramid Pooling (ASPP)モジュールを使用して特徴抽出を強化する。
Pixel-Adaptive Refinement (PAR)モジュールが導入され、初期擬似ラベルを適応的に洗練することができる。
実験の結果,提案するDSMAフレームワークは,サリエンシデータセット上の既存の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-01T03:08:30Z) - Towards Robust Recommender Systems via Triple Cooperative Defense [63.64651805384898]
レコメンダシステムは、よく作られた偽のプロフィールに影響を受けやすいことが多く、バイアスのあるレコメンデーションにつながる。
本稿では,3つのモデルの協調学習によるモデルロバスト性向上に協力する汎用フレームワークであるトリプル協調防衛を提案する。
その結果,TCDの堅牢性向上はベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2022-10-25T04:45:43Z) - Spoofing-Aware Speaker Verification with Unsupervised Domain Adaptation [18.684888457998284]
対策モジュールの一次存在なしに自動話者検証システムの堅牢性を向上する。
オーディオデータを用いてバックエンドを最適化するために,教師なし領域適応手法を3つ採用する。
論理アクセスシナリオと物理アクセスシナリオの両方において顕著な改善が示された。
論文 参考訳(メタデータ) (2022-03-21T14:02:06Z) - OSOA: One-Shot Online Adaptation of Deep Generative Models for Lossless
Compression [49.10945855716001]
本稿では,事前学習した深部生成モデルから始まり,そのモデルに動的システムを適用してデータバッチを圧縮する手法を提案する。
実験結果から、バニラOSOAは、トレーニング対象のモデルとスペースに対して、すべてのターゲットに対して1つのモデルを使用することに対して、かなりの時間を節約できることが示された。
論文 参考訳(メタデータ) (2021-11-02T15:18:25Z) - Dynamically Mitigating Data Discrepancy with Balanced Focal Loss for
Replay Attack Detection [10.851348154870852]
我々は、アンチ・スプーフィングにおいては、モデリングプロセスにおいて容易に分類されたサンプルよりも識別不能なサンプルに注意が必要であると論じている。
本研究は, サンプル自体の特性に基づいて, 損失を動的にスケールする訓練目的として, バランスの取れた焦点損失関数を活用することを提案する。
相補的な特徴により、3種類の機能しか持たない融合系は他のシステムよりも22.5%、min-tDCFが7%、EERが7%向上する。
論文 参考訳(メタデータ) (2020-06-25T17:06:47Z) - Simple and Effective Prevention of Mode Collapse in Deep One-Class
Classification [93.2334223970488]
深部SVDDにおける超球崩壊を防止するための2つの正則化器を提案する。
第1の正則化器は、標準のクロスエントロピー損失によるランダムノイズの注入に基づいている。
第2の正規化器は、小さすぎるとミニバッチ分散をペナライズする。
論文 参考訳(メタデータ) (2020-01-24T03:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。