論文の概要: Easy, Interpretable, Effective: openSMILE for voice deepfake detection
- arxiv url: http://arxiv.org/abs/2408.15775v1
- Date: Wed, 28 Aug 2024 13:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:50:41.199332
- Title: Easy, Interpretable, Effective: openSMILE for voice deepfake detection
- Title(参考訳): 音声ディープフェイク検出のための OpenSMILE の簡易,解釈可能,有効性
- Authors: Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Müller,
- Abstract要約: ASVspoof5は、音声認証とディープフェイク検出の分野で事実上の標準である。
非常に単純な特徴の小さなサブセットを用いて、攻撃を驚くほどの精度で識別できることが示される。
これらの特徴の一般化能力を探求し、それらのうちのいくつかが攻撃間で効果的に転送されていることを発見した。
- 参考スコア(独自算出の注目度): 6.899744489931013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we demonstrate that attacks in the latest ASVspoof5 dataset -- a de facto standard in the field of voice authenticity and deepfake detection -- can be identified with surprising accuracy using a small subset of very simplistic features. These are derived from the openSMILE library, and are scalar-valued, easy to compute, and human interpretable. For example, attack A10`s unvoiced segments have a mean length of 0.09 \pm 0.02, while bona fide instances have a mean length of 0.18 \pm 0.07. Using this feature alone, a threshold classifier achieves an Equal Error Rate (EER) of 10.3% for attack A10. Similarly, across all attacks, we achieve up to 0.8% EER, with an overall EER of 15.7 \pm 6.0%. We explore the generalization capabilities of these features and find that some of them transfer effectively between attacks, primarily when the attacks originate from similar Text-to-Speech (TTS) architectures. This finding may indicate that voice anti-spoofing is, in part, a problem of identifying and remembering signatures or fingerprints of individual TTS systems. This allows to better understand anti-spoofing models and their challenges in real-world application.
- Abstract(参考訳): 本稿では,音声認証とディープフェイク検出の分野におけるデファクトスタンダードである最新のASVspoof5データセットの攻撃を,非常に単純な特徴の小さなサブセットを用いて,驚くほどの精度で識別できることを実証する。
これらはopenSMILEライブラリから派生したもので、スカラー値、計算が容易、人間の解釈が可能である。
例えば、A10の無声区間の平均長は0.09 \pm 0.02であり、ボナファイドのインスタンスの平均長は0.18 \pm 0.07である。
この特徴だけで、しきい値分類器は攻撃A10に対して10.3%のEER(Equal Error Rate)を達成する。
同様に、すべての攻撃で最大0.8%のEERを達成でき、全体的なEERは15.7 \pm 6.0%である。
これらの特徴の一般化機能について検討し、攻撃が類似のText-to-Speech(TTS)アーキテクチャに由来する場合を中心に、攻撃間を効果的に転送することを発見した。
この発見は、音声のアンチスプーフィングが、部分的には個々のTSシステムの署名や指紋を識別し記憶する問題であることを示しているかもしれない。
これにより、現実世界のアプリケーションにおけるアンチスプーフィングモデルとその課題をよりよく理解できます。
関連論文リスト
- Toward Improving Synthetic Audio Spoofing Detection Robustness via Meta-Learning and Disentangled Training With Adversarial Examples [33.445126880876415]
自動話者検証システムに到達させる代わりに、スプーフ攻撃をフィルタリングする信頼性と堅牢なスプーフ検出システムを提案する。
データ不均衡問題に対処するために重み付き加法的角縁損失が提案され、スプーフィング攻撃に対する一般化を改善するために異なるマージンが割り当てられている。
データ拡張戦略として、スプーフィング音声に知覚不能な摂動を加えて、敵の例にのみ対応する正規化統計が実行されることを保証するために、補助的なバッチ正規化を用いる。
論文 参考訳(メタデータ) (2024-08-23T19:26:54Z) - Evading AI-Generated Content Detectors using Homoglyphs [0.0]
ホモグリフベースの攻撃は、最先端のAI生成テキスト検出器を効果的に回避することができる。
以上の結果から,ホモグリフによる攻撃が,最先端の検出器を効果的に回避できることが示唆された。
論文 参考訳(メタデータ) (2024-06-17T06:07:32Z) - Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - Detection of Iterative Adversarial Attacks via Counter Attack [4.549831511476249]
ディープニューラルネットワーク(DNN)は、非構造化データを処理する強力なツールであることが証明されている。
画像のような高次元データの場合、それらは本質的に敵対的な攻撃に対して脆弱である。
本研究では、CW攻撃が検出器自体として使用できるという数学的証明を概説する。
論文 参考訳(メタデータ) (2020-09-23T21:54:36Z) - Evading Deepfake-Image Detectors with White- and Black-Box Attacks [75.13740810603686]
一般的な法医学的アプローチは、ニューラルネットワークを訓練して、実際の合成内容と区別することを示します。
我々は,既存の画像生成装置の約0.95のLOC曲線(AUC)以下の領域を達成できる最先端の分類器に関する5つの攻撃事例研究を開発した。
また、ターゲット分類器にアクセスできないブラックボックス攻撃により、AUCを0.22に削減する。
論文 参考訳(メタデータ) (2020-04-01T17:59:59Z) - Non-Intrusive Detection of Adversarial Deep Learning Attacks via
Observer Networks [5.4572790062292125]
近年の研究では、深層学習モデルは逆入力に弱いことが示されている。
本稿では,主分類網を複数のバイナリ検出器で拡張することにより,逆入力を検出する新しい手法を提案する。
我々は、MNISTデータセットで99.5%、CIFAR-10データセットで97.5%の精度で検出する。
論文 参考訳(メタデータ) (2020-02-22T21:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。