論文の概要: AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge
- arxiv url: http://arxiv.org/abs/2408.17352v1
- Date: Fri, 30 Aug 2024 15:30:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 14:56:23.996398
- Title: AASIST3: KAN-Enhanced AASIST Speech Deepfake Detection using SSL Features and Additional Regularization for the ASVspoof 2024 Challenge
- Title(参考訳): AASIST3: SSL特徴を用いたkan-Enhanced AASIST音声ディープフェイク検出とASVspoof 2024チャレンジのための追加正規化
- Authors: Kirill Borodin, Vasiliy Kudryavtsev, Dmitrii Korzh, Alexey Efimenko, Grach Mkrtchian, Mikhail Gorodnichev, Oleg Y. Rogov,
- Abstract要約: AASIST3という新しいアーキテクチャを提案する。
既存の AASIST フレームワークを Kolmogorov-Arnold ネットワーク、レイヤ、エンコーダ、プレエンハンシス技術で拡張することにより、AASIST3 は2倍以上のパフォーマンス向上を実現している。
クローズド条件で0.5357、オープン条件で0.1414のminDCF結果を示し、合成音声の検出を著しく向上し、ASVセキュリティを改善した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic Speaker Verification (ASV) systems, which identify speakers based on their voice characteristics, have numerous applications, such as user authentication in financial transactions, exclusive access control in smart devices, and forensic fraud detection. However, the advancement of deep learning algorithms has enabled the generation of synthetic audio through Text-to-Speech (TTS) and Voice Conversion (VC) systems, exposing ASV systems to potential vulnerabilities. To counteract this, we propose a novel architecture named AASIST3. By enhancing the existing AASIST framework with Kolmogorov-Arnold networks, additional layers, encoders, and pre-emphasis techniques, AASIST3 achieves a more than twofold improvement in performance. It demonstrates minDCF results of 0.5357 in the closed condition and 0.1414 in the open condition, significantly enhancing the detection of synthetic voices and improving ASV security.
- Abstract(参考訳): 音声特性に基づいて話者を識別する自動話者認証(ASV)システムは、金融取引におけるユーザ認証、スマートデバイスにおける排他的アクセス制御、法医学的不正検出など、数多くの応用がある。
しかし、ディープラーニングアルゴリズムの進歩により、TTS(Text-to-Speech)システムとVoice Conversion(Voice Conversion)システムによる合成音声の生成が可能となり、潜在的な脆弱性にASVシステムを公開することができる。
これに対抗するために,AASIST3という新しいアーキテクチャを提案する。
既存の AASIST フレームワークを Kolmogorov-Arnold ネットワーク、レイヤ、エンコーダ、プレエンハンシス技術で拡張することにより、AASIST3 は2倍以上のパフォーマンス向上を実現している。
クローズド条件で0.5357、オープン条件で0.1414のminDCF結果を示し、合成音声の検出を著しく向上し、ASVセキュリティを改善した。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - USTC-KXDIGIT System Description for ASVspoof5 Challenge [30.962424920219224]
ASVspoof5 Challenge for Track 1(音声ディープフェイク検出)とTrack 2(音声自動話者検証,SASV)に提出されたUSTC-KXDIGITシステムについて述べる。
トラック1は、潜在的な処理アルゴリズムから様々な技術的品質を示し、オープン条件とクローズ条件の両方を含んでいる。
トラック2では、トラック1からのCMシステムの使用を継続し、CNNベースのASVシステムと融合した。
この手法は閉条件で0.2814 min-aDCF、開条件で0.0756 min-aDCFを達成し、優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T08:28:58Z) - Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。
話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。
テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文 参考訳(メタデータ) (2024-07-08T18:20:24Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - L3-Net Deep Audio Embeddings to Improve COVID-19 Detection from
Smartphone Data [5.505634045241288]
人工呼吸記録から有意な特徴を自動的に抽出する深層埋め込みモデルL3-Netの有効性について検討した。
結果は、L3-Netと手作りの機能の組み合わせが、AUCの他の作品のパフォーマンスを28.57%上回っていることを示している。
論文 参考訳(メタデータ) (2022-05-16T13:50:22Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。