論文の概要: Half-Truth: A Partially Fake Audio Detection Dataset
- arxiv url: http://arxiv.org/abs/2104.03617v1
- Date: Thu, 8 Apr 2021 08:57:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 13:18:42.825041
- Title: Half-Truth: A Partially Fake Audio Detection Dataset
- Title(参考訳): Half-Truth: 部分的にフェイクなオーディオ検出データセット
- Authors: Jiangyan Yi, Ye Bai, Jianhua Tao, Zhengkun Tian, Chenglong Wang, Tao
Wang, Ruibo Fu
- Abstract要約: 本稿では半真性音声検出(HAD)のためのデータセットを開発する。
HADデータセット内の部分的に偽の音声は、発話中の数ワードだけを変更する。
偽の侵入を検出するだけでなく、このデータセットを使用して音声で操作された領域をローカライズすることもできます。
- 参考スコア(独自算出の注目度): 67.03756345159464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diverse promising datasets have been designed to hold back the development of
fake audio detection, such as ASVspoof databases. However, previous datasets
ignore an attacking situation, in which the hacker hides some small fake clips
in real speech audio. This poses a serious threat since that it is difficult to
distinguish the small fake clip from the whole speech utterance. Therefore,
this paper develops such a dataset for half-truth audio detection (HAD).
Partially fake audio in the HAD dataset involves only changing a few words in
an utterance.The audio of the words is generated with the very latest
state-of-the-art speech synthesis technology. We can not only detect fake
uttrances but also localize manipulated regions in a speech using this dataset.
Some benchmark results are presented on this dataset. The results show that
partially fake audio presents much more challenging than fully fake audio for
fake audio detection.
- Abstract(参考訳): 多様な有望なデータセットは、ASVspoofデータベースのような偽オーディオ検出の開発を支えているように設計されている。
しかし、以前のデータセットは攻撃的な状況を無視しており、ハッカーは実際の音声に小さな偽のクリップを隠している。
これは、小さな偽のクリップをスピーチ全体の発話と区別することが難しいため、深刻な脅威となる。
そこで本稿では,半真実音声検出(had)のためのデータセットを開発した。
hadデータセットの一部のフェイクオーディオは、発話中の数単語だけを変更し、その単語の音声は最新の最先端の音声合成技術で生成される。
我々は、偽のユトランを検知するだけでなく、このデータセットを用いて音声中の操作された領域をローカライズする。
いくつかのベンチマーク結果は、このデータセットで示される。
その結果、一部の偽オーディオは、偽オーディオ検出のための完全偽オーディオよりもはるかに難しいことが判明した。
関連論文リスト
- Deepfake audio as a data augmentation technique for training automatic
speech to text transcription models [55.2480439325792]
本稿では,ディープフェイク音声に基づくデータ拡張手法を提案する。
インド人(英語)が生成したデータセットが選択され、単一のアクセントの存在が保証された。
論文 参考訳(メタデータ) (2023-09-22T11:33:03Z) - WavCaps: A ChatGPT-Assisted Weakly-Labelled Audio Captioning Dataset for
Audio-Language Multimodal Research [90.01270531446059]
約400kの音声クリップとペアキャプションを組み合わせた,大規模な音声キャプションデータセットであるWavCapsを紹介した。
オンラインハーベストな生の記述は非常にうるさいし、自動音声キャプションなどのタスクで直接使うには適さない。
本稿では,大規模な言語モデルであるChatGPTを用いて,ノイズの多いデータをフィルタリングし,高品質なキャプションを生成するための3段階処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-03-30T14:07:47Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio
Detection [59.083973178410474]
本稿では,シーンフェイク音声検出のためのこのようなデータセットを設計する(SceneFake)。
SceneFakeデータセットで操作された音声は、音声強調技術を用いて発話の音響シーンを改ざんするだけである。
テストセットで偽の発話を検出するだけでなく、偽検出モデルの一般化を評価して、不正な操作攻撃を検知する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Faked Speech Detection with Zero Knowledge [2.5515299924109858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
提案モデルは,大規模な音声データセットから抽出した重要な特徴の集合に基づいて訓練された。
比較のために,被験者を母語話者とし,人間の検査によって音声も分類した。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Evaluation of an Audio-Video Multimodal Deepfake Dataset using Unimodal
and Multimodal Detectors [18.862258543488355]
ディープフェイクはセキュリティとプライバシーの問題を引き起こす可能性がある。
ディープラーニング技術を使って人間の声をクローンする新しい領域も登場しつつある。
優れたディープフェイク検出器を開発するには、複数のモードのディープフェイクを検出する検出器が必要である。
論文 参考訳(メタデータ) (2021-09-07T11:00:20Z) - FakeAVCeleb: A Novel Audio-Video Multimodal Deepfake Dataset [21.199288324085444]
近年,人間の声のクローン化や合成という新たな課題が表面化しつつある。
ディープフェイクビデオとオーディオを使った偽造攻撃の脅威が高まっているため、ビデオとオーディオの両方に焦点を当てた新しいディープフェイク検知器が求められている。
本稿では, ディープフェイク映像だけでなく, 合成音声も含む新しいオーディオ・ビデオ・ディープフェイク・データセット(FakeAVCeleb)を提案する。
論文 参考訳(メタデータ) (2021-08-11T07:49:36Z) - VGGSound: A Large-scale Audio-Visual Dataset [160.1604237188594]
オープンソースのメディアからオーディオデータセットを作成するために,スケーラブルなパイプラインを提案する。
このパイプラインを使用して、VGGSoundデータセットを310のオーディオクラス用に210万本以上のビデオでキュレートする。
得られたデータセットは、音声認識モデルのトレーニングと評価に使用することができる。
論文 参考訳(メタデータ) (2020-04-29T17:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。