論文の概要: SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio
Detection
- arxiv url: http://arxiv.org/abs/2211.06073v1
- Date: Fri, 11 Nov 2022 09:05:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 16:59:27.935079
- Title: SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio
Detection
- Title(参考訳): scenefake: 初期データセットとシーン偽音声検出のためのベンチマーク
- Authors: Jiangyan Yi and Chenglong Wang and Jianhua Tao and Zhengkun Tian and
Cunhang Fan and Haoxin Ma and Ruibo Fu
- Abstract要約: 本稿では,シーンフェイク音声検出のためのこのようなデータセットを設計する(SceneFake)。
SceneFakeデータセットで操作された音声は、音声強調技術を用いて発話の音響シーンを改ざんするだけである。
テストセットで偽の発話を検出するだけでなく、偽検出モデルの一般化を評価して、不正な操作攻撃を検知する。
- 参考スコア(独自算出の注目度): 59.083973178410474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous databases have been designed to further the development of fake
audio detection. However, fake utterances are mostly generated by altering
timbre, prosody, linguistic content or channel noise of original audios. They
ignore a fake situation, in which the attacker manipulates an acoustic scene of
the original audio with another forgery one. It will pose a major threat to our
society if some people misuse the manipulated audio with malicious purpose.
Therefore, this motivates us to fill in the gap. This paper designs such a
dataset for scene fake audio detection (SceneFake). A manipulated audio in the
SceneFake dataset involves only tampering the acoustic scene of an utterance by
using speech enhancement technologies. We can not only detect fake utterances
on a seen test set but also evaluate the generalization of fake detection
models to unseen manipulation attacks. Some benchmark results are described on
the SceneFake dataset. Besides, an analysis of fake attacks with different
speech enhancement technologies and signal-to-noise ratios are presented on the
dataset. The results show that scene manipulated utterances can not be detected
reliably by the existing baseline models of ASVspoof 2019. Furthermore, the
detection of unseen scene manipulation audio is still challenging.
- Abstract(参考訳): 従来のデータベースは、偽音声検出の開発をさらに進めるために設計されている。
しかしながら、偽の発話は、主に、音色、韻律、言語内容または元の音声のチャンネルノイズを変更することによって生成される。
彼らは偽の状況を無視し、攻撃者は元のオーディオの音響シーンを別の偽造音で操作する。
操作された音声を悪意のある目的で誤用した場合、私たちの社会にとって大きな脅威となるでしょう。
したがって、このことはギャップを埋める動機になります。
本稿では,シーンフェイク音声検出(SceneFake)のためのデータセットを設計する。
SceneFakeデータセットで操作された音声は、音声強調技術を用いて発話の音響シーンを改ざんするだけである。
一見したテストセット上での偽の発話を検出できるだけでなく、偽検出モデルの一般化と非認識操作攻撃の評価も可能である。
いくつかのベンチマーク結果はSceneFakeデータセットで説明されている。
さらに、データセットに異なる音声強調技術と信号対雑音比を用いた偽攻撃の分析を行った。
その結果,ASVspoof 2019の既存のベースラインモデルでは,シーン操作された発話を確実に検出できないことがわかった。
さらに,未確認シーン操作音声の検出は依然として困難である。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - Vulnerability of Automatic Identity Recognition to Audio-Visual
Deepfakes [13.042731289687918]
本稿では, ディープフェイクSWAN-DFの音声・映像データベースとして初めて, 唇と音声をよく同期させる手法を提案する。
我々は,SpeechBrainのECAPA-TDNNモデルなど,アート話者認識システムの脆弱性を実証する。
論文 参考訳(メタデータ) (2023-11-29T14:18:04Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Do You Remember? Overcoming Catastrophic Forgetting for Fake Audio
Detection [54.20974251478516]
本稿では,破滅的な忘れを克服するために,偽音声検出のための連続学習アルゴリズムを提案する。
検出ネットワークを微調整する場合,本手法では,真の発話と偽発話の比率に応じて,重み付けの方向を適応的に計算する。
本手法は,音声の感情認識などの関連分野に容易に一般化できる。
論文 参考訳(メタデータ) (2023-08-07T05:05:49Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Half-Truth: A Partially Fake Audio Detection Dataset [60.08010668752466]
本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセットの部分的に偽の音声は、発話中の数単語だけを変更する。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
論文 参考訳(メタデータ) (2021-04-08T08:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。