論文の概要: Temporal Variability and Multi-Viewed Self-Supervised Representations to Tackle the ASVspoof5 Deepfake Challenge
- arxiv url: http://arxiv.org/abs/2408.06922v1
- Date: Tue, 13 Aug 2024 14:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:16:52.990983
- Title: Temporal Variability and Multi-Viewed Self-Supervised Representations to Tackle the ASVspoof5 Deepfake Challenge
- Title(参考訳): ASVspoof5 Deepfake Challengeに取り組むための時間変動と多視点自己監督表現
- Authors: Yuankun Xie, Xiaopeng Wang, Zhiyong Wang, Ruibo Fu, Zhengqi Wen, Haonan Cheng, Long Ye,
- Abstract要約: 本稿では,特定の周波数帯域をマスクしてCMを改善するデータ拡張手法である Frequency Mask を紹介する。
実験では, ASVspoof 5 Track 1 評価セットにおいて, minDCF 0.0158 と EER 0.55% を達成した。
- 参考スコア(独自算出の注目度): 21.655127750485097
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: ASVspoof5, the fifth edition of the ASVspoof series, is one of the largest global audio security challenges. It aims to advance the development of countermeasure (CM) to discriminate bonafide and spoofed speech utterances. In this paper, we focus on addressing the problem of open-domain audio deepfake detection, which corresponds directly to the ASVspoof5 Track1 open condition. At first, we comprehensively investigate various CM on ASVspoof5, including data expansion, data augmentation, and self-supervised learning (SSL) features. Due to the high-frequency gaps characteristic of the ASVspoof5 dataset, we introduce Frequency Mask, a data augmentation method that masks specific frequency bands to improve CM robustness. Combining various scale of temporal information with multiple SSL features, our experiments achieved a minDCF of 0.0158 and an EER of 0.55% on the ASVspoof 5 Track 1 evaluation progress set.
- Abstract(参考訳): ASVspoofシリーズの第5版であるASVspoof5は、世界的なオーディオセキュリティの最大の課題の一つである。
本研究の目的は、ボナフィドとスプーフ音声を識別する対策(CM)の開発を進めることである。
本稿では,ASVspoof5 Track1のオープン条件に対応するオープンドメインオーディオディープフェイク検出の問題に焦点をあてる。
まず,データ拡張,データ拡張,自己教師型学習(SSL)機能など,ASVspoof5上の様々なCMを包括的に検討する。
ASVspoof5データセットの特徴である高周波ギャップのため、特定の周波数帯域をマスクしてCMロバスト性を向上させるデータ拡張法である Frequency Mask を導入する。
ASVspoof 5 Track 1 評価の進歩セットでは,様々な時間的情報と複数のSSL特徴を組み合わせることで,minDCF 0.0158 と EER 0.55% を達成できた。
関連論文リスト
- Learn from Real: Reality Defender's Submission to ASVspoof5 Challenge [13.54987267358107]
ASVspoofチャレンジは、検出モデルの一般化性と堅牢性を評価するベンチマークの1つとなっている。
本稿では,ASVspoof5チャレンジへの現実デフェンダーの提出について紹介し,新たな事前学習戦略について紹介する。
我々のシステムSLIMは、自己教師付きコントラスト学習を用いて、様々な種類のボナフィド音声からスタイル言語依存性の埋め込みを学習する。
論文 参考訳(メタデータ) (2024-10-09T18:55:28Z) - ASVspoof 5: Crowdsourced Speech Data, Deepfakes, and Adversarial Attacks at Scale [59.25180900687571]
ASVspoof 5は、音声スプーフとディープフェイク攻撃の研究を促進する一連の課題の第5版である。
本稿では,2つの課題トラック,新しいデータベース,評価指標,評価プラットフォームについて述べる。
論文 参考訳(メタデータ) (2024-08-16T13:37:20Z) - ArcSin: Adaptive ranged cosine Similarity injected noise for Language-Driven Visual Tasks [43.42682181017004]
本稿では,視覚言語学習のための画像入力をテキストに置き換える。
先行ノイズ注入法に着想を得て、適応範囲のコサイン類似性注入ノイズ(ArcSin)を導入する。
実験結果から,これらのモデルが画像上で訓練されたモデルと性能的に密接に競合していることが判明した。
論文 参考訳(メタデータ) (2024-02-27T08:20:45Z) - Generalizing Speaker Verification for Spoof Awareness in the Embedding
Space [30.094557217931563]
ASVシステムは様々な種類の敵を用いて偽造することができる。
本稿では,ディープニューラルネットワークに基づく新しいバックエンド分類手法を提案する。
ASVspoof 2019論理アクセスデータセットで実験が行われる。
論文 参考訳(メタデータ) (2024-01-20T07:30:22Z) - Towards single integrated spoofing-aware speaker verification embeddings [63.42889348690095]
本研究は,1つの統合スプーフィング対応話者検証埋め込みを開発することを目的とする。
単一のSASV埋め込みの劣った性能は、不十分なトレーニングデータから得られると分析する。
実験では、SASV2022チャレンジの評価プロトコルにおいて、SASV-EERが1.06%に達するという劇的な改善が示された。
論文 参考訳(メタデータ) (2023-05-30T14:15:39Z) - Leveraging Unlabelled Data in Multiple-Instance Learning Problems for
Improved Detection of Parkinsonian Tremor in Free-Living Conditions [80.88681952022479]
本稿では,半教師付き学習とマルチスタンス学習を組み合わせた新しい手法を提案する。
本研究は,454被験者の非競合データを活用することにより,物体ごとの震動検出において大きな性能向上が達成できることを示す。
論文 参考訳(メタデータ) (2023-04-29T12:25:10Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Tandem Assessment of Spoofing Countermeasures and Automatic Speaker
Verification: Fundamentals [59.34844017757795]
同一誤差率(EER)測定値を用いて,スプーフィング対策(CM)の信頼性を測る。
本稿では,タンデム検出コスト関数(t-DCF)の新たな拡張について述べる。
CMアセスメントにおけるt-DCFの導入は、アンチ・スプーフィングとASV研究コミュニティの緊密な連携を促進するのに役立つと期待されている。
論文 参考訳(メタデータ) (2020-07-12T12:44:08Z) - Detecting Parkinsonian Tremor from IMU Data Collected In-The-Wild using
Deep Multiple-Instance Learning [59.74684475991192]
パーキンソン病(英: Parkinson's Disease、PD)は、60歳以上の人口の約1%に影響を与える徐々に進化する神経学的疾患である。
PD症状には、震動、剛性、ブレイキネジアがある。
本稿では,スマートフォン端末から受信したIMU信号に基づいて,PDに関連するトレモラスなエピソードを自動的に識別する手法を提案する。
論文 参考訳(メタデータ) (2020-05-06T09:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。