論文の概要: Interpretable Temporal Class Activation Representation for Audio Spoofing Detection
- arxiv url: http://arxiv.org/abs/2406.08825v2
- Date: Sun, 16 Jun 2024 20:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 12:44:32.022401
- Title: Interpretable Temporal Class Activation Representation for Audio Spoofing Detection
- Title(参考訳): 音声スポフィング検出のための解釈可能な時間的クラスアクティベーション表現
- Authors: Menglu Li, Xiao-Ping Zhang,
- Abstract要約: 我々は、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合する。
ASVspoof 2019-LAセットのEERは0.51%、min t-DCFは0.0165である。
- 参考スコア(独自算出の注目度): 7.476305130252989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Explaining the decisions made by audio spoofing detection models is crucial for fostering trust in detection outcomes. However, current research on the interpretability of detection models is limited to applying XAI tools to post-trained models. In this paper, we utilize the wav2vec 2.0 model and attentive utterance-level features to integrate interpretability directly into the model's architecture, thereby enhancing transparency of the decision-making process. Specifically, we propose a class activation representation to localize the discriminative frames contributing to detection. Furthermore, we demonstrate that multi-label training based on spoofing types, rather than binary labels as bonafide and spoofed, enables the model to learn distinct characteristics of different attacks, significantly improving detection performance. Our model achieves state-of-the-art results, with an EER of 0.51% and a min t-DCF of 0.0165 on the ASVspoof2019-LA set.
- Abstract(参考訳): 音声スプーフィング検出モデルによる決定を説明することは、検出結果に対する信頼を高めるために重要である。
しかし,検出モデルの解釈可能性に関する現在の研究は,学習後のモデルにXAIツールを適用することに限定されている。
本稿では、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合し、意思決定プロセスの透明性を高める。
具体的には,検出に寄与する識別フレームをローカライズするクラスアクティベーション表現を提案する。
さらに,2進ラベルではなく,スプーフィング型に基づくマルチラベルトレーニングにより,異なる攻撃特性を学習し,検出性能を著しく向上することを示す。
ASVspoof2019-LAセットのEERは0.51%、min t-DCFは0.0165である。
関連論文リスト
- Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。
本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文 参考訳(メタデータ) (2024-11-23T19:10:32Z) - Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。
提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文 参考訳(メタデータ) (2024-10-08T17:59:03Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。
本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文 参考訳(メタデータ) (2023-03-27T17:59:33Z) - Raw waveform speaker verification for supervised and self-supervised
learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。
最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。
また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-16T09:28:03Z) - Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。
事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文 参考訳(メタデータ) (2021-07-10T02:13:25Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Novelty Detection Through Model-Based Characterization of Neural
Networks [19.191613437266184]
本稿では,新しい入力タイプや条件を検出するために,ニューラルネットワークのモデルに基づく特徴付けを提案する。
我々は,MNIST,Fashion-MNIST,CIFAR-10,CURE-TSRの4つの画像認識データセットを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2020-08-13T20:03:25Z) - Self-Supervised Contrastive Learning for Unsupervised Phoneme
Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。
ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。
テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文 参考訳(メタデータ) (2020-07-27T12:10:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。