論文の概要: System Fingerprint Recognition for Deepfake Audio: An Initial Dataset
and Investigation
- arxiv url: http://arxiv.org/abs/2208.10489v3
- Date: Fri, 15 Sep 2023 07:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-18 19:07:04.336342
- Title: System Fingerprint Recognition for Deepfake Audio: An Initial Dataset
and Investigation
- Title(参考訳): deepfakeオーディオのためのシステム指紋認識 : 初期データセットと検討
- Authors: Xinrui Yan, Jiangyan Yi, Chenglong Wang, Jianhua Tao, Junzuo Zhou, Hao
Gu, Ruibo Fu
- Abstract要約: システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提案する。
最新の最先端のディープラーニング技術を利用する7つの中国ベンダーの音声合成システムからデータセットを収集した。
- 参考スコア(独自算出の注目度): 51.06875680387692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid progress of deep speech synthesis models has posed significant
threats to society such as malicious content manipulation. Therefore, many
studies have emerged to detect the so-called deepfake audio. However, existing
works focus on the binary detection of real audio and fake audio. In real-world
scenarios such as model copyright protection and digital evidence forensics, it
is needed to know what tool or model generated the deepfake audio to explain
the decision. This motivates us to ask: Can we recognize the system
fingerprints of deepfake audio? In this paper, we present the first deepfake
audio dataset for system fingerprint recognition (SFR) and conduct an initial
investigation. We collected the dataset from the speech synthesis systems of
seven Chinese vendors that use the latest state-of-the-art deep learning
technologies, including both clean and compressed sets. In addition, to
facilitate the further development of system fingerprint recognition methods,
we provide extensive benchmarks that can be compared and research findings. The
dataset will be publicly available. .
- Abstract(参考訳): 深層音声合成モデルの急速な進歩は、悪質なコンテンツ操作のような社会に大きな脅威をもたらした。
そのため、いわゆるディープフェイク音声を検出するために多くの研究がなされている。
しかし、既存の研究は、実際のオーディオと偽オーディオのバイナリ検出に焦点を当てている。
モデル著作権保護やデジタル証拠法医学のような現実世界のシナリオでは、決定を説明するためにどのツールやモデルがディープフェイク音声を生成するかを知る必要がある。
ディープフェイクオーディオのシステム指紋を認識できますか?
本稿では,システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提示し,初期調査を行う。
クリーンセットと圧縮セットの両方を含む最新のディープラーニング技術を使用している7つの中国ベンダーの音声合成システムからデータセットを収集した。
さらに,システム指紋認識手法のさらなる開発を促進するために,比較可能な広範囲なベンチマークと研究結果を提供する。
データセットは公開される予定だ。
.
関連論文リスト
- SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。
私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。
このようにして、セマンティックな内容が検出器に露出されることはない。
論文 参考訳(メタデータ) (2024-09-14T02:45:09Z) - Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。
オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。
本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T18:45:01Z) - A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection [17.285669984798975]
本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。
新たな世代のアルゴリズムが絶えず出現しており、検出方法の開発中にこれらのアルゴリズムは遭遇しない。
表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T10:33:15Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - What to Remember: Self-Adaptive Continual Learning for Audio Deepfake
Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。
本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T09:52:17Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。
本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。
人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文 参考訳(メタデータ) (2022-09-26T10:38:39Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。