論文の概要: System Fingerprints Detection for DeepFake Audio: An Initial Dataset and
Investigation
- arxiv url: http://arxiv.org/abs/2208.10489v1
- Date: Sun, 21 Aug 2022 05:15:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-24 13:47:54.292171
- Title: System Fingerprints Detection for DeepFake Audio: An Initial Dataset and
Investigation
- Title(参考訳): ディープフェイク音声のシステム指紋検出 : 初期データセットと調査
- Authors: Xinrui Yan, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Haoxin Ma,
Zhengkun Tian, Ruibo Fu
- Abstract要約: 本稿では,ディープフェイク音声のシステム指紋を検出するための予備調査を行う。
5つの最新のディープラーニング音声合成システムによるディープフェイク音声データセットの実験を行った。
- 参考スコア(独自算出の注目度): 55.86520130897438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many effective attempts have been made for deepfake audio detection. However,
they can only distinguish between real and fake. For many practical application
scenarios, what tool or algorithm generated the deepfake audio also is needed.
This raises a question: Can we detect the system fingerprints of deepfake
audio? Therefore, this paper conducts a preliminary investigation to detect
system fingerprints of deepfake audio. Experiments are conducted on deepfake
audio datasets from five latest deep-learning speech synthesis systems. The
results show that LFCC features are relatively more suitable for system
fingerprints detection. Moreover, the ResNet achieves the best detection
results among LCNN and x-vector based models. The t-SNE visualization shows
that different speech synthesis systems generate distinct system fingerprints.
- Abstract(参考訳): ディープフェイク音声検出には多くの効果的な試みがなされている。
しかし、それらは本物と偽物としか区別できない。
多くの実用的なアプリケーションシナリオでは、deepfakeオーディオを生成するツールやアルゴリズムも必要です。
ディープフェイクオーディオのシステム指紋は検出できるか?
そこで本研究では,deepfake音声のシステム指紋を検出するための予備的調査を行う。
5つの最新のディープラーニング音声合成システムによるディープフェイク音声データセットの実験を行った。
その結果,LFCCの特徴はシステム指紋検出に比較的適していることがわかった。
さらに、ResNetはLCNNとx-vectorベースのモデルで最高の検出結果を得る。
t-SNE視覚化は、異なる音声合成システムが異なるシステム指紋を生成することを示す。
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection [17.285669984798975]
本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。
新たな世代のアルゴリズムが絶えず出現しており、検出方法の開発中にこれらのアルゴリズムは遭遇しない。
表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T10:33:15Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。