Fugu-MT 論文翻訳(概要): Interpretable Temporal Class Activation Representation for Audio Spoofing Detection

論文の概要: Interpretable Temporal Class Activation Representation for Audio Spoofing Detection

arxiv url: http://arxiv.org/abs/2406.08825v2
Date: Sun, 16 Jun 2024 20:01:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 12:44:32.022401
Title: Interpretable Temporal Class Activation Representation for Audio Spoofing Detection
Title（参考訳）: 音声スポフィング検出のための解釈可能な時間的クラスアクティベーション表現
Authors: Menglu Li, Xiao-Ping Zhang,
Abstract要約: 我々は、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合する。 ASVspoof 2019-LAセットのEERは0.51%、min t-DCFは0.0165である。
参考スコア（独自算出の注目度）: 7.476305130252989
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Explaining the decisions made by audio spoofing detection models is crucial for fostering trust in detection outcomes. However, current research on the interpretability of detection models is limited to applying XAI tools to post-trained models. In this paper, we utilize the wav2vec 2.0 model and attentive utterance-level features to integrate interpretability directly into the model's architecture, thereby enhancing transparency of the decision-making process. Specifically, we propose a class activation representation to localize the discriminative frames contributing to detection. Furthermore, we demonstrate that multi-label training based on spoofing types, rather than binary labels as bonafide and spoofed, enables the model to learn distinct characteristics of different attacks, significantly improving detection performance. Our model achieves state-of-the-art results, with an EER of 0.51% and a min t-DCF of 0.0165 on the ASVspoof2019-LA set.
Abstract（参考訳）: 音声スプーフィング検出モデルによる決定を説明することは、検出結果に対する信頼を高めるために重要である。しかし,検出モデルの解釈可能性に関する現在の研究は,学習後のモデルにXAIツールを適用することに限定されている。本稿では、wav2vec 2.0モデルと注意的発話レベルの特徴を利用して、解釈可能性を直接モデルのアーキテクチャに統合し、意思決定プロセスの透明性を高める。具体的には,検出に寄与する識別フレームをローカライズするクラスアクティベーション表現を提案する。さらに,2進ラベルではなく,スプーフィング型に基づくマルチラベルトレーニングにより,異なる攻撃特性を学習し,検出性能を著しく向上することを示す。 ASVspoof2019-LAセットのEERは0.51%、min t-DCFは0.0165である。

関連論文リスト

Explicit Uncertainty Modeling for Active CLIP Adaptation with Dual Prompt Tuning [51.99383151474742]
デュアルプロンプトチューニングに基づくアクティブCLIP適応のためのロバストな不確実性モデリングフレームワークを提案する。提案手法は,同一のアノテーション予算の下で,既存のアクティブラーニング手法よりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2026-02-04T09:01:55Z)
Automated Detection of Visual Attribute Reliance with a Self-Reflective Agent [58.90049897180927]
視覚モデルにおける視覚的特徴の意図しない依存を検出するための自動フレームワークを提案する。自己反射エージェントは、モデルが依存する可能性のある視覚特性に関する仮説を生成し、テストする。我々は,視覚特性の多様さを示すために設計された130モデルの新しいベンチマークに対して,我々のアプローチを評価した。
論文参考訳（メタデータ） (2025-10-24T17:59:02Z)
FADEL: Uncertainty-aware Fake Audio Detection with Evidential Deep Learning [9.960675988638805]
顕在学習を用いた偽音声検出(FADEL)という新しいフレームワークを提案する。 FADELはモデルの不確実性を予測に組み込んでおり、OODシナリオではより堅牢なパフォーマンスを実現している。本研究では,異なるスプーフィングアルゴリズム間の平均不確かさと等誤差率(EER)の強い相関関係を解析し,不確かさ推定の有効性を示す。
論文参考訳（メタデータ） (2025-04-22T07:40:35Z)
FORCE: Feature-Oriented Representation with Clustering and Explanation [0.0]
SHAPに基づく教師付きディープラーニングフレームワークForceを提案する。ニューラルネットワークアーキテクチャにおけるSHAP値の2段階の使用に依存している。我々はForceが潜在機能とアテンションフレームワークを組み込まないネットワークと比較して、全体的なパフォーマンスを劇的に改善したことを示す。
論文参考訳（メタデータ） (2025-04-07T22:05:50Z)
$C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。 MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文参考訳（メタデータ） (2025-04-01T13:01:30Z)
Benchmarking machine learning for bowel sound pattern classification from tabular features to pretrained models [2.235474969689758]
このデータセットは、ボーエル音のパターンを検出し/または分類するための機械学習モデルの性能を評価するために使用される。結果は、特にサンプルが少ないクラスの検出において、事前訓練されたモデルの明らかな優位性を強調した。これらの結果から,全身的な腸音の理解が向上し,今後の消化器検査への機械学習による診断応用が期待できる。
論文参考訳（メタデータ） (2025-02-21T17:22:48Z)
Understanding and Improving Training-Free AI-Generated Image Detections with Vision Foundation Models [68.90917438865078]
顔合成と編集のためのディープフェイク技術は、生成モデルに重大なリスクをもたらす。本稿では,モデルバックボーン,タイプ,データセット間で検出性能がどう変化するかを検討する。本稿では、顔画像のパフォーマンスを向上させるContrastive Blurと、ノイズタイプのバイアスに対処し、ドメイン間のパフォーマンスのバランスをとるMINDERを紹介する。
論文参考訳（メタデータ） (2024-11-28T13:04:45Z)
Effort: Efficient Orthogonal Modeling for Generalizable AI-Generated Image Detection [66.16595174895802]
既存のAI生成画像(AIGI)検出手法は、しばしば限定的な一般化性能に悩まされる。本稿では、AIGI検出において、これまで見過ごされてきた重要な非対称性現象を同定する。
論文参考訳（メタデータ） (2024-11-23T19:10:32Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文参考訳（メタデータ） (2024-04-12T21:22:21Z)
Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文参考訳（メタデータ） (2023-06-06T14:23:34Z)
Zero-shot Model Diagnosis [80.36063332820568]
ディープラーニングモデルを評価するための一般的なアプローチは、興味のある属性を持つラベル付きテストセットを構築し、そのパフォーマンスを評価することである。本稿では,ゼロショットモデル診断(ZOOM)がテストセットやラベル付けを必要とせずに可能であることを論じる。
論文参考訳（メタデータ） (2023-03-27T17:59:33Z)
Raw waveform speaker verification for supervised and self-supervised learning [30.08242210230669]
本稿では,話者検証に有効な手法を取り入れた新しい生波形話者検証モデルを提案する。最も優れた構成の下では、このモデルは、最先端のモデルと競合する0.89%のエラー率を示す。また、自己教師型学習フレームワークを用いて、提案モデルについて検討し、この研究シリーズにおける最先端のパフォーマンスを示す。
論文参考訳（メタデータ） (2022-03-16T09:28:03Z)
Layer-wise Analysis of a Self-supervised Speech Representation Model [26.727775920272205]
自己教師付き学習アプローチは、音声表現モデルの事前学習に成功している。事前訓練された表現そのものに符号化された情報のタイプや範囲についてはあまり研究されていない。
論文参考訳（メタデータ） (2021-07-10T02:13:25Z)
Visualizing Classifier Adjacency Relations: A Case Study in Speaker Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文参考訳（メタデータ） (2021-06-11T13:03:33Z)
Novelty Detection Through Model-Based Characterization of Neural Networks [19.191613437266184]
本稿では,新しい入力タイプや条件を検出するために,ニューラルネットワークのモデルに基づく特徴付けを提案する。我々は,MNIST,Fashion-MNIST,CIFAR-10,CURE-TSRの4つの画像認識データセットを用いてアプローチを検証する。
論文参考訳（メタデータ） (2020-08-13T20:03:25Z)
Self-Supervised Contrastive Learning for Unsupervised Phoneme Segmentation [37.054709598792165]
このモデルは畳み込みニューラルネットワークであり、生波形上で直接動作する。ノイズコントラスト推定原理を用いて信号のスペクトル変化を同定する。テスト時には、モデル出力にピーク検出アルゴリズムを適用して最終境界を生成する。
論文参考訳（メタデータ） (2020-07-27T12:10:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。