論文の概要: Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery
- arxiv url: http://arxiv.org/abs/2202.06684v2
- Date: Tue, 15 Feb 2022 09:07:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 11:34:51.694997
- Title: Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery
- Title(参考訳): 自己接触に基づく偽スパン発見による部分的偽音声検出
- Authors: Haibin Wu, Heng-Cheng Kuo, Naijun Zheng, Kuo-Hsuan Hung, Hung-Yi Lee,
Yu Tsao, Hsin-Min Wang, Helen Meng
- Abstract要約: 本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
- 参考スコア(独自算出の注目度): 89.21979663248007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The past few years have witnessed the significant advances of speech
synthesis and voice conversion technologies. However, such technologies can
undermine the robustness of broadly implemented biometric identification models
and can be harnessed by in-the-wild attackers for illegal uses. The ASVspoof
challenge mainly focuses on synthesized audios by advanced speech synthesis and
voice conversion models, and replay attacks. Recently, the first Audio Deep
Synthesis Detection challenge (ADD 2022) extends the attack scenarios into more
aspects. Also ADD 2022 is the first challenge to propose the partially fake
audio detection task. Such brand new attacks are dangerous and how to tackle
such attacks remains an open question. Thus, we propose a novel framework by
introducing the question-answering (fake span discovery) strategy with the
self-attention mechanism to detect partially fake audios. The proposed fake
span detection module tasks the anti-spoofing model to predict the start and
end positions of the fake clip within the partially fake audio, address the
model's attention into discovering the fake spans rather than other shortcuts
with less generalization, and finally equips the model with the discrimination
capacity between real and partially fake audios. Our submission ranked second
in the partially fake audio detection track of ADD 2022.
- Abstract(参考訳): 過去数年間、音声合成と音声変換技術の著しい進歩が目撃されてきた。
しかし、このような技術は広く実装された生体認証モデルの頑健さを損なう可能性があり、野生の攻撃者が違法に利用するために利用できる。
asvspoofチャレンジは主に音声合成と音声変換モデルによる合成音声とリプレイアタックに焦点を当てている。
最近、最初のAudio Deep Synthesis Detection Challenge (ADD 2022) が攻撃シナリオをさらに多くの側面に拡張した。
また、ADD 2022は、部分的に偽の音声検出タスクを提案する最初の挑戦である。
このような真新しい攻撃は危険であり、どのように攻撃に取り組むかは依然として疑問である。
そこで本研究では,疑似音声検出のための自己照査機構を備えた質問応答(フェイクスパン発見)戦略を導入することにより,新たな枠組みを提案する。
提案した偽スパン検出モジュールは、アンチスプーフィングモデルをタスクし、部分的に偽オーディオ内の偽クリップの開始位置と終了位置を予測し、一般化の少ない他のショートカットよりも偽スパンの発見にモデルの注意を向け、最終的に実オーディオと部分的に偽オーディオの識別能力を備えたモデルに装備する。
ADD 2022の部分的に偽の音声検出トラックで2位にランクインした。
関連論文リスト
- Can DeepFake Speech be Reliably Detected? [17.10792531439146]
この研究は、最先端のオープンソース音声検出装置に対する能動的悪意のある攻撃に関する最初の体系的研究である。
その結果、敵の脅威が進行する中で、より堅牢な検出方法が緊急に必要であることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-09T06:13:48Z) - SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion [70.99781219121803]
Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
論文 参考訳(メタデータ) (2023-05-25T02:54:29Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - ADD 2022: the First Audio Deep Synthesis Detection Challenge [92.41777858637556]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。
ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文 参考訳(メタデータ) (2022-02-17T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。