論文の概要: WaveFake: A Data Set to Facilitate Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2111.02813v1
- Date: Thu, 4 Nov 2021 12:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 19:40:49.284609
- Title: WaveFake: A Data Set to Facilitate Audio Deepfake Detection
- Title(参考訳): WaveFake:オーディオディープフェイク検出のためのデータセット
- Authors: Joel Frank, Lea Sch\"onherr
- Abstract要約: 本稿では,音声信号の解析に用いる信号処理技術について紹介する。
次に、2つの言語にまたがる5つの異なるネットワークアーキテクチャから9つのサンプルデータセットを収集した。
第3に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep generative modeling has the potential to cause significant harm to
society. Recognizing this threat, a magnitude of research into detecting
so-called "Deepfakes" has emerged. This research most often focuses on the
image domain, while studies exploring generated audio signals have, so-far,
been neglected. In this paper we make three key contributions to narrow this
gap. First, we provide researchers with an introduction to common signal
processing techniques used for analyzing audio signals. Second, we present a
novel data set, for which we collected nine sample sets from five different
network architectures, spanning two languages. Finally, we supply practitioners
with two baseline models, adopted from the signal processing community, to
facilitate further research in this area.
- Abstract(参考訳): 深層生成モデリングは社会に大きな害をもたらす可能性がある。
この脅威を認識して、いわゆる「ディープフェイク」を検出する研究の規模が現れた。
この研究は画像領域に焦点をあてることが多いが、生成した音声信号の研究は無視されている。
本稿では,このギャップを狭めるための3つの重要な貢献を行う。
まず,音声信号の解析に用いられる共通信号処理技術について,研究者に紹介する。
第2に,5つの異なるネットワークアーキテクチャから9つのサンプルセットを収集し,2つの言語にまたがる新しいデータセットを提案する。
最後に,信号処理コミュニティから採用されている2つのベースラインモデルを実践者に提供し,さらなる研究を促進する。
関連論文リスト
- Deepfake Media Generation and Detection in the Generative AI Era: A Survey and Outlook [101.30779332427217]
本研究は,近年の現場開発を含むディープフェイク発生・検出技術について調査する。
偽コンテンツの変更や生成に使用する手順に従って,様々な種類のディープフェイクを識別する。
我々は,分布外コンテンツに基づくディープフェイク検出のための新しいマルチモーダル・ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-11-29T08:29:25Z) - Analyzing the Impact of Splicing Artifacts in Partially Fake Speech Signals [15.595136769477614]
我々は,信号の結合による音声トラックの解析を行い,それらのアーティファクトを調査し,既存のデータセットにバイアスが生じているかどうかを評価する。
その結果,スプライシングアーティファクトを解析することにより,ArialSpoofデータセットとHADデータセットでそれぞれ6.16%,7.36%のEERを検出できることがわかった。
論文 参考訳(メタデータ) (2024-08-25T09:28:04Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - Towards generalizing deep-audio fake detection networks [1.0128808054306186]
生成ニューラルネットワークは、高品質な合成音声を大規模に作成することができる。
本研究では,現在の音声発生器の周波数領域指紋について検討する。
我々は一般化する優れた軽量検出器を訓練する。
論文 参考訳(メタデータ) (2023-05-22T13:37:52Z) - Voice-Face Homogeneity Tells Deepfake [56.334968246631725]
既存の検出アプローチは、ディープフェイクビデオにおける特定のアーティファクトの探索に寄与する。
未探索の音声-顔のマッチングビューからディープフェイク検出を行う。
我々のモデルは、他の最先端の競合と比較して、大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-03-04T09:08:50Z) - On the Frequency Bias of Generative Models [61.60834513380388]
我々は、最先端のGANトレーニングにおいて、高周波アーティファクトに対する提案手法を解析した。
既存のアプローチでは、スペクトルアーティファクトを完全に解決できないことが分かっています。
以上の結果から,識別能力の向上に大きな可能性があることが示唆された。
論文 参考訳(メタデータ) (2021-11-03T18:12:11Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - Deep Learning Radio Frequency Signal Classification with Hybrid Images [0.0]
入力トレーニングデータに使用できるさまざまな前処理ステップに注目し、結果を固定されたディープラーニングアーキテクチャでテストする。
本稿では,時間領域情報と周波数領域情報の両方を利用するハイブリッド画像を提案し,コンピュータビジョン問題として分類する。
論文 参考訳(メタデータ) (2021-05-19T11:12:09Z) - Multi-attentional Deepfake Detection [79.80308897734491]
ディープフェイクによる顔の偽造はインターネットに広まり、深刻な社会的懸念を引き起こしている。
新たなマルチアテンテーショナルディープフェイク検出ネットワークを提案する。
具体的には,1)ネットワークを異なる局所的部分へ配置するための複数の空間的注意ヘッド,2)浅い特徴の微妙なアーティファクトをズームするテクスチャ的特徴拡張ブロック,3)低レベルなテクスチャ特徴と高レベルなセマンティクス特徴をアグリゲートする,の3つの構成要素からなる。
論文 参考訳(メタデータ) (2021-03-03T13:56:14Z) - dMelodies: A Music Dataset for Disentanglement Learning [70.90415511736089]
我々は、研究者が様々な領域でアルゴリズムの有効性を実証するのに役立つ新しいシンボリック・ミュージック・データセットを提案する。
これはまた、音楽用に特別に設計されたアルゴリズムを評価する手段を提供する。
データセットは、遠絡学習のためのディープネットワークのトレーニングとテストに十分な大きさ(約13万データポイント)である。
論文 参考訳(メタデータ) (2020-07-29T19:20:07Z) - Scattering Features for Multimodal Gait Recognition [5.3526997662068085]
歩行パターンに基づく人物識別の問題点を考察する。
マイクロホンとジオフォンセンサから得られた音響および振動の測定に頼っている。
論文 参考訳(メタデータ) (2020-01-23T22:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。