論文の概要: Half-Truth: A Partially Fake Audio Detection Dataset
- arxiv url: http://arxiv.org/abs/2104.03617v1
- Date: Thu, 8 Apr 2021 08:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:18:42.825041
- Title: Half-Truth: A Partially Fake Audio Detection Dataset
- Title(参考訳): Half-Truth: 部分的にフェイクなオーディオ検出データセット
- Authors: Jiangyan Yi, Ye Bai, Jianhua Tao, Zhengkun Tian, Chenglong Wang, Tao
Wang, Ruibo Fu
- Abstract要約: 本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセット内の部分的に偽の音声は、発話中の数ワードだけを変更する。
偽の侵入を検出するだけでなく、このデータセットを使用して音声で操作された領域をローカライズすることもできます。
- 参考スコア(独自算出の注目度): 67.03756345159464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse promising datasets have been designed to hold back the development of
fake audio detection, such as ASVspoof databases. However, previous datasets
ignore an attacking situation, in which the hacker hides some small fake clips
in real speech audio. This poses a serious threat since that it is difficult to
distinguish the small fake clip from the whole speech utterance. Therefore,
this paper develops such a dataset for half-truth audio detection (HAD).
Partially fake audio in the HAD dataset involves only changing a few words in
an utterance.The audio of the words is generated with the very latest
state-of-the-art speech synthesis technology. We can not only detect fake
uttrances but also localize manipulated regions in a speech using this dataset.
Some benchmark results are presented on this dataset. The results show that
partially fake audio presents much more challenging than fully fake audio for
fake audio detection.
- Abstract(参考訳): 多様な有望なデータセットは、ASVspoofデータベースのような偽オーディオ検出の開発を支えているように設計されている。
しかし、以前のデータセットは攻撃的な状況を無視しており、ハッカーは実際の音声に小さな偽のクリップを隠している。
これは、小さな偽のクリップをスピーチ全体の発話と区別することが難しいため、深刻な脅威となる。
そこで本稿では,半真実音声検出(had)のためのデータセットを開発した。
hadデータセットの一部のフェイクオーディオは、発話中の数単語だけを変更し、その単語の音声は最新の最先端の音声合成技術で生成される。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
いくつかのベンチマーク結果は、このデータセットで示される。
その結果、一部の偽オーディオは、偽オーディオ検出のための完全偽オーディオよりもはるかに難しいことが判明した。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for Audio-Language Multimodal Research [82.42802570171096]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset [21.199288324085444]
近年,人間の声のクローン化や合成という新たな課題が表面化しつつある。
ディープフェイクビデオとオーディオを使った偽造攻撃の脅威が高まっているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検知器が求められている。
本稿では, ディープフェイク映像だけでなく, 合成音声も含む新しいオーディオ・ビデオ・ディープフェイク・データセット(FakeAVCeleb)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:49:36Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。