論文の概要: Learn from Real: Reality Defender's Submission to ASVspoof5 Challenge
- arxiv url: http://arxiv.org/abs/2410.07379v1
- Date: Wed, 9 Oct 2024 18:55:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 20:47:00.249921
- Title: Learn from Real: Reality Defender's Submission to ASVspoof5 Challenge
- Title(参考訳): 現実から学ぶ:ASVspoof5チャレンジへの現実的ディフェンダーの提出
- Authors: Yi Zhu, Chirag Goel, Surya Koppisetti, Trang Tran, Ankur Kumar, Gaurav Bharaj,
- Abstract要約: ASVspoofチャレンジは、検出モデルの一般化性と堅牢性を評価するベンチマークの1つとなっている。
本稿では,ASVspoof5チャレンジへの現実デフェンダーの提出について紹介し,新たな事前学習戦略について紹介する。
我々のシステムSLIMは、自己教師付きコントラスト学習を用いて、様々な種類のボナフィド音声からスタイル言語依存性の埋め込みを学習する。
- 参考スコア(独自算出の注目度): 13.54987267358107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio deepfake detection is crucial to combat the malicious use of AI-synthesized speech. Among many efforts undertaken by the community, the ASVspoof challenge has become one of the benchmarks to evaluate the generalizability and robustness of detection models. In this paper, we present Reality Defender's submission to the ASVspoof5 challenge, highlighting a novel pretraining strategy which significantly improves generalizability while maintaining low computational cost during training. Our system SLIM learns the style-linguistics dependency embeddings from various types of bonafide speech using self-supervised contrastive learning. The learned embeddings help to discriminate spoof from bonafide speech by focusing on the relationship between the style and linguistics aspects. We evaluated our system on ASVspoof5, ASV2019, and In-the-wild. Our submission achieved minDCF of 0.1499 and EER of 5.5% on ASVspoof5 Track 1, and EER of 7.4% and 10.8% on ASV2019 and In-the-wild respectively.
- Abstract(参考訳): 音声のディープフェイク検出は、AI合成音声の悪意ある使用に対処するために不可欠である。
コミュニティによる多くの取り組みの中で、ASVspoofチャレンジは、検出モデルの一般化性と堅牢性を評価するためのベンチマークの1つとなっている。
本稿では,ASVspoof5チャレンジへの現実デフェンダーの提出を取り上げ,トレーニング中の低計算コストを維持しながら,一般化性を大幅に向上させる新たな事前学習戦略を明らかにする。
我々のシステムSLIMは、自己教師付きコントラスト学習を用いて、様々な種類のボナフィド音声からスタイル言語依存性の埋め込みを学習する。
学習された埋め込みは、スタイルと言語学的側面の関係に焦点をあてることで、ボナファイド音声からスプーフを識別するのに役立つ。
ASVspoof5, ASV2019, In-the-wildについて検討した。
ASVspoof5 Track 1では0.1499, EERは5.5%, EERは7.4%, In-the-wildでは10.8%であった。
関連論文リスト
- Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale [59.25180900687571]
ASVspoof 5は、音声スプーフとディープフェイク攻撃の研究を促進する一連の課題の第5版である。
本稿では,2つの課題トラック,新しいデータベース,評価指標,評価プラットフォームについて述べる。
論文 参考訳(メタデータ) (2024-08-16T13:37:20Z) - Temporal Variability and Multi-Viewed Self-Supervised Representations to Tackle the ASVspoof5 Deepfake Challenge [21.655127750485097]
本稿では,特定の周波数帯域をマスクしてCMを改善するデータ拡張手法である Frequency Mask を紹介する。
実験では, ASVspoof 5 Track 1 評価セットにおいて, minDCF 0.0158 と EER 0.55% を達成した。
論文 参考訳(メタデータ) (2024-08-13T14:15:15Z) - Generalizing Speaker Verification for Spoof Awareness in the Embedding
Space [30.094557217931563]
ASVシステムは様々な種類の敵を用いて偽造することができる。
本稿では,ディープニューラルネットワークに基づく新しいバックエンド分類手法を提案する。
ASVspoof 2019論理アクセスデータセットで実験が行われる。
論文 参考訳(メタデータ) (2024-01-20T07:30:22Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z) - Adversarial defense for automatic speaker verification by cascaded
self-supervised learning models [101.42920161993455]
ますます悪意のある攻撃者は、自動話者検証(ASV)システムで敵攻撃を仕掛けようとする。
本稿では,逐次的自己教師付き学習モデルに基づく標準的かつ攻撃非依存な手法を提案する。
実験により, 本手法は効果的な防御性能を実現し, 敵攻撃に対抗できることを示した。
論文 参考訳(メタデータ) (2021-02-14T01:56:43Z) - Characterizing Speech Adversarial Examples Using Self-Attention U-Net
Enhancement [102.48582597586233]
本稿では,U-Net$_At$という,U-Netに基づくアテンションモデルを提案する。
対戦型音声アタックを用いた自動音声認識(ASR)タスクの実験を行った。
論文 参考訳(メタデータ) (2020-03-31T02:16:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。