論文の概要: All-for-One and One-For-All: Deep learning-based feature fusion for
Synthetic Speech Detection
- arxiv url: http://arxiv.org/abs/2307.15555v1
- Date: Fri, 28 Jul 2023 13:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 12:23:44.116111
- Title: All-for-One and One-For-All: Deep learning-based feature fusion for
Synthetic Speech Detection
- Title(参考訳): all-for-one and one-for-all: 合成音声検出のためのディープラーニングに基づく特徴融合
- Authors: Daniele Mari, Davide Salvi, Paolo Bestagini, and Simone Milani
- Abstract要約: 近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上に容易にできるようになった。
本稿では,合成音声検出タスクについて文献で提案する3つの特徴セットについて考察し,それらと融合するモデルを提案する。
このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。
- 参考スコア(独自算出の注目度): 18.429817510387473
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in deep learning and computer vision have made the synthesis
and counterfeiting of multimedia content more accessible than ever, leading to
possible threats and dangers from malicious users. In the audio field, we are
witnessing the growth of speech deepfake generation techniques, which solicit
the development of synthetic speech detection algorithms to counter possible
mischievous uses such as frauds or identity thefts. In this paper, we consider
three different feature sets proposed in the literature for the synthetic
speech detection task and present a model that fuses them, achieving overall
better performances with respect to the state-of-the-art solutions. The system
was tested on different scenarios and datasets to prove its robustness to
anti-forensic attacks and its generalization capabilities.
- Abstract(参考訳): 近年のディープラーニングとコンピュータビジョンの進歩により、マルチメディアコンテンツの合成と偽造がこれまで以上にアクセスしやすくなり、悪意のあるユーザによる脅威や危険が生じた。
音声分野では,不正行為や個人情報盗難などの誤用を防止するための合成音声検出アルゴリズムの開発を提唱する,音声ディープフェイク生成技術の発達を目の当たりにしている。
本稿では,合成音声検出タスクの文献で提案されている3つの特徴セットについて考察し,それらと融合するモデルを提案する。
このシステムは異なるシナリオとデータセットでテストされ、反法医学的攻撃に対する堅牢性とその一般化能力を証明する。
関連論文リスト
- Understanding Audiovisual Deepfake Detection: Techniques, Challenges, Human Factors and Perceptual Insights [49.81915942821647]
ディープラーニングは様々な分野に適用され、ディープフェイク検出への影響は例外ではない。
ディープフェイク(英: Deepfakes)は、政治的偽造、フィッシング、スランダリング、偽情報の拡散に偽装的に使用できる、偽物だが現実的な合成コンテンツである。
本稿では,ディープフェイク検出戦略の有効性を改善し,サイバーセキュリティとメディアの整合性に関する今後の研究を導くことを目的とする。
論文 参考訳(メタデータ) (2024-11-12T09:02:11Z) - SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - A Multimodal Framework for Deepfake Detection [0.0]
AIを使って合成メディアを作るDeepfakesは、ビデオやオーディオを説得力を持って修正して、現実を正しく表現する。
我々の研究は、革新的なマルチモーダルアプローチを通じて、ディープフェイクの重要な問題に対処する。
枠組みは視覚的・聴覚的分析を併用し,精度は94%であった。
論文 参考訳(メタデータ) (2024-10-04T14:59:10Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Audio Anti-Spoofing Detection: A Survey [7.3348524333159]
ディープラーニングは、Deepfakeとして知られるマルチメディアフェイクコンテンツを操作または作成できる洗練されたアルゴリズムを生み出した。
防汚対策の開発を促進するため, 防汚対策の音響的課題が編成されている。
本稿では,アルゴリズムアーキテクチャ,最適化手法,アプリケーション一般化性,評価指標,パフォーマンス比較,利用可能なデータセット,オープンソース可用性など,検出パイプライン内のすべてのコンポーネントについて,包括的なレビューを行う。
論文 参考訳(メタデータ) (2024-04-22T06:52:12Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Deepfake audio detection by speaker verification [79.99653758293277]
本研究では,話者の生体特性のみを活用する新しい検出手法を提案する。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を有する音声障害に対する高ロバスト性を検証した。
論文 参考訳(メタデータ) (2022-09-28T13:46:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。