論文の概要: How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?
- arxiv url: http://arxiv.org/abs/2406.02483v1
- Date: Tue, 4 Jun 2024 16:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 15:10:17.632809
- Title: How Do Neural Spoofing Countermeasures Detect Partially Spoofed Audio?
- Title(参考訳): ニューラル・スポーフィング対策はどのようにして部分的スポーフィング音声を検出するのか?
- Authors: Tianchi Liu, Lin Zhang, Rohan Kumar Das, Yi Ma, Ruijie Tao, Haizhou Li,
- Abstract要約: 部分的にスプーフされたオーディオで訓練された対策(CM)は、そのようなスプーフを効果的に検出することができる。
我々はGrad-CAMを利用し、CMの判断を解釈するために定量的分析指標を導入する。
バルナフッ化物とスプーフドオーディオを連結した場合に発生する遷移領域のアーティファクトをCMが優先していることが判明した。
- 参考スコア(独自算出の注目度): 53.58852794805362
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Partially manipulating a sentence can greatly change its meaning. Recent work shows that countermeasures (CMs) trained on partially spoofed audio can effectively detect such spoofing. However, the current understanding of the decision-making process of CMs is limited. We utilize Grad-CAM and introduce a quantitative analysis metric to interpret CMs' decisions. We find that CMs prioritize the artifacts of transition regions created when concatenating bona fide and spoofed audio. This focus differs from that of CMs trained on fully spoofed audio, which concentrate on the pattern differences between bona fide and spoofed parts. Our further investigation explains the varying nature of CMs' focus while making correct or incorrect predictions. These insights provide a basis for the design of CM models and the creation of datasets. Moreover, this work lays a foundation of interpretability in the field of partial spoofed audio detection that has not been well explored previously.
- Abstract(参考訳): 文を部分的に操作することは、その意味を大きく変えることができる。
近年の研究では、部分的にスプーフされたオーディオで訓練された対策(CM)が、そのようなスプーフを効果的に検出できることが示されている。
しかし、現在のCMの意思決定プロセスの理解は限られている。
我々はGrad-CAMを利用し、CMの判断を解釈するために定量的分析指標を導入する。
バルナフッ化物とスプーフドオーディオを連結した場合に発生する遷移領域のアーティファクトをCMが優先していることが判明した。
この焦点は、完全にスプーフされたオーディオで訓練されたCMと異なり、ボナフィドとスプーフされた部分のパターンの違いに重点を置いている。
さらなる調査では,CMの焦点の多様性について,正しい予測や誤った予測を行いながら説明する。
これらの洞察は、CMモデルの設計とデータセットの作成の基礎となる。
さらに,本研究は,これまでよく研究されていない部分的スプーフ音声検出の分野において,解釈可能性の基礎を築いた。
関連論文リスト
- Coarse-to-Fine Proposal Refinement Framework for Audio Temporal Forgery Detection and Localization [60.899082019130766]
本稿では、フレームレベル検出ネットワーク(FDN)と、音声の時間的偽造検出とローカライゼーションのための改良ネットワーク(PRN)を提案する。
FDNは、偽のフレーム間で情報的不整合の手がかりを抽出し、偽の領域を大まかに示すのに有用な識別的特徴を得る。
PRNは、FDNから派生した粗粒度の提案を洗練するために、信頼スコアと回帰オフセットを予測する責任がある。
論文 参考訳(メタデータ) (2024-07-23T15:07:52Z) - Spoof Diarization: "What Spoofed When" in Partially Spoofed Audio [35.485350559012645]
本稿では,部分的スポフ(PS)シナリオにおける新しいタスクとして,スポフダイアリゼーションを定義する。
異なるスプーフ手法に従って、スプーフ領域の配置とクラスタ化を含む、スプーフがいつ何になったかを決定することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T02:23:57Z) - Sentiment analysis in non-fixed length audios using a Fully
Convolutional Neural Network [0.3495246564946556]
任意の長さの音声を事前に固定することなく受信できる感情分析手法を提案する。
音声記述法としてMel SpectrogramとMel Frequency Cepstral Coefficientsを用いる。
完全畳み込みニューラルネットワークアーキテクチャを分類器として提案する。
論文 参考訳(メタデータ) (2024-02-03T15:26:28Z) - HM-Conformer: A Conformer-based audio deepfake detection system with
hierarchical pooling and multi-level classification token aggregation methods [34.83806360076228]
HM-Conformerはシーケンス対シーケンスタスク用に設計されている。
様々なシーケンス長を処理し、それらを集約することで、スプーフィングエビデンスを効率的に検出することができる。
実験の結果、HM-Conformerは15.71%のEERを達成した。
論文 参考訳(メタデータ) (2023-09-15T07:18:30Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Cross-domain Adaptation with Discrepancy Minimization for
Text-independent Forensic Speaker Verification [61.54074498090374]
本研究では,複数の音響環境下で収集したCRSS-Forensicsオーディオデータセットを紹介する。
我々は、VoxCelebデータを用いてCNNベースのネットワークを事前訓練し、次に、CRSS-Forensicsのクリーンな音声で高レベルのネットワーク層の一部を微調整するアプローチを示す。
論文 参考訳(メタデータ) (2020-09-05T02:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。