論文の概要: Easy, Interpretable, Effective: openSMILE for voice deepfake detection
- arxiv url: http://arxiv.org/abs/2408.15775v1
- Date: Wed, 28 Aug 2024 13:14:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-29 15:50:41.199332
- Title: Easy, Interpretable, Effective: openSMILE for voice deepfake detection
- Title(参考訳): 音声ディープフェイク検出のための OpenSMILE の簡易,解釈可能,有効性
- Authors: Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Müller,
- Abstract要約: ASVspoof5は、音声認証とディープフェイク検出の分野で事実上の標準である。
非常に単純な特徴の小さなサブセットを用いて、攻撃を驚くほどの精度で識別できることが示される。
これらの特徴の一般化能力を探求し、それらのうちのいくつかが攻撃間で効果的に転送されていることを発見した。
- 参考スコア(独自算出の注目度): 6.899744489931013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we demonstrate that attacks in the latest ASVspoof5 dataset -- a de facto standard in the field of voice authenticity and deepfake detection -- can be identified with surprising accuracy using a small subset of very simplistic features. These are derived from the openSMILE library, and are scalar-valued, easy to compute, and human interpretable. For example, attack A10`s unvoiced segments have a mean length of 0.09 \pm 0.02, while bona fide instances have a mean length of 0.18 \pm 0.07. Using this feature alone, a threshold classifier achieves an Equal Error Rate (EER) of 10.3% for attack A10. Similarly, across all attacks, we achieve up to 0.8% EER, with an overall EER of 15.7 \pm 6.0%. We explore the generalization capabilities of these features and find that some of them transfer effectively between attacks, primarily when the attacks originate from similar Text-to-Speech (TTS) architectures. This finding may indicate that voice anti-spoofing is, in part, a problem of identifying and remembering signatures or fingerprints of individual TTS systems. This allows to better understand anti-spoofing models and their challenges in real-world application.
- Abstract(参考訳): 本稿では,音声認証とディープフェイク検出の分野におけるデファクトスタンダードである最新のASVspoof5データセットの攻撃を,非常に単純な特徴の小さなサブセットを用いて,驚くほどの精度で識別できることを実証する。
これらはopenSMILEライブラリから派生したもので、スカラー値、計算が容易、人間の解釈が可能である。
例えば、A10の無声区間の平均長は0.09 \pm 0.02であり、ボナファイドのインスタンスの平均長は0.18 \pm 0.07である。
この特徴だけで、しきい値分類器は攻撃A10に対して10.3%のEER(Equal Error Rate)を達成する。
同様に、すべての攻撃で最大0.8%のEERを達成でき、全体的なEERは15.7 \pm 6.0%である。
これらの特徴の一般化機能について検討し、攻撃が類似のText-to-Speech(TTS)アーキテクチャに由来する場合を中心に、攻撃間を効果的に転送することを発見した。
この発見は、音声のアンチスプーフィングが、部分的には個々のTSシステムの署名や指紋を識別し記憶する問題であることを示しているかもしれない。
これにより、現実世界のアプリケーションにおけるアンチスプーフィングモデルとその課題をよりよく理解できます。
関連論文リスト
- Efficient Trigger Word Insertion [9.257916713112945]
我々の主な目的は、テキストバックドア攻撃において、良好なアタック成功率(ASR)を達成しつつ、有毒なサンプルの数を減らすことである。
トリガー語最適化と有毒なサンプル選択の観点から,効率的なトリガー語挿入戦略を提案する。
提案手法は, 汚れラベル設定で有毒な試料が10個あれば90%以上を達成でき, クリーンラベル設定ではトレーニングデータの1.5%しか必要としない。
論文 参考訳(メタデータ) (2023-11-23T12:15:56Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Paraphrasing evades detectors of AI-generated text, but retrieval is an
effective defense [56.077252790310176]
本稿では,パラフレーズ生成モデル(DIPPER)を提案する。
DIPPERを使って3つの大きな言語モデル(GPT3.5-davinci-003)で生成されたテキストを言い換えると、透かしを含むいくつかの検出器を回避できた。
我々は,言語モデルAPIプロバイダによって維持されなければならない,意味論的に類似した世代を検索するシンプルなディフェンスを導入する。
論文 参考訳(メタデータ) (2023-03-23T16:29:27Z) - DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability
Curvature [143.5381108333212]
大規模な言語モデルからサンプリングされたテキストは、モデルのログ確率関数の負の曲率領域を占有する傾向にあることを示す。
次に、与えられたLLMから通路が生成されるかどうかを判断するための新しい曲率ベースの基準を定義する。
我々は、モデルサンプル検出のための既存のゼロショット法よりもディテクターGPTの方が識別性が高いことを発見した。
論文 参考訳(メタデータ) (2023-01-26T18:44:06Z) - LMD: A Learnable Mask Network to Detect Adversarial Examples for Speaker
Verification [17.968334617708244]
本稿では,攻撃者に依存しない,解釈可能な手法を提案する。
スコア変動検出器の中核成分は、ニューラルネットワークによりマスクされた分光図を生成することである。
提案手法は,5つの最先端のベースラインより優れている。
論文 参考訳(メタデータ) (2022-11-02T02:03:53Z) - On Trace of PGD-Like Adversarial Attacks [77.75152218980605]
敵対的攻撃は、ディープラーニングアプリケーションに対する安全性とセキュリティ上の懸念を引き起こす。
モデルの勾配一貫性を反映した適応応答特性(ARC)特性を構築する。
私たちの方法は直感的で、軽量で、非侵襲的で、データ不要です。
論文 参考訳(メタデータ) (2022-05-19T14:26:50Z) - Identifying Adversarial Attacks on Text Classifiers [32.958568467774704]
本稿では,その生成にどの方法が使われたかを決定するために,逆テキストを解析する。
最初のコントリビューションは、攻撃検出とラベル付けのための広範なデータセットです。
第2のコントリビューションとして、このデータセットを使用して、攻撃識別のための多くの分類器を開発し、ベンチマークします。
論文 参考訳(メタデータ) (2022-01-21T06:16:04Z) - Using Anomaly Feature Vectors for Detecting, Classifying and Warning of
Outlier Adversarial Examples [4.096598295525345]
分類ニューラルネットワークに提示される敵入力を検出し,分類し,警告するシステムであるDeClaWについて述べる。
予備的な発見は、AFVがCIFAR-10データセット上で93%近い精度で、いくつかの種類の敵攻撃を区別するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2021-07-01T16:00:09Z) - Detection of Adversarial Supports in Few-shot Classifiers Using Feature
Preserving Autoencoders and Self-Similarity [89.26308254637702]
敵対的なサポートセットを強調するための検出戦略を提案する。
我々は,特徴保存型オートエンコーダフィルタリングと,この検出を行うサポートセットの自己相似性の概念を利用する。
提案手法は攻撃非依存であり, 最善の知識まで, 数発分類器の検出を探索する最初の方法である。
論文 参考訳(メタデータ) (2020-12-09T14:13:41Z) - Detection of Iterative Adversarial Attacks via Counter Attack [4.549831511476249]
ディープニューラルネットワーク(DNN)は、非構造化データを処理する強力なツールであることが証明されている。
画像のような高次元データの場合、それらは本質的に敵対的な攻撃に対して脆弱である。
本研究では、CW攻撃が検出器自体として使用できるという数学的証明を概説する。
論文 参考訳(メタデータ) (2020-09-23T21:54:36Z) - Evading Deepfake-Image Detectors with White- and Black-Box Attacks [75.13740810603686]
一般的な法医学的アプローチは、ニューラルネットワークを訓練して、実際の合成内容と区別することを示します。
我々は,既存の画像生成装置の約0.95のLOC曲線(AUC)以下の領域を達成できる最先端の分類器に関する5つの攻撃事例研究を開発した。
また、ターゲット分類器にアクセスできないブラックボックス攻撃により、AUCを0.22に削減する。
論文 参考訳(メタデータ) (2020-04-01T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。