Fugu-MT 論文翻訳(概要): System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation

論文の概要: System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation

arxiv url: http://arxiv.org/abs/2208.10489v3
Date: Fri, 15 Sep 2023 07:19:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 19:07:04.336342
Title: System Fingerprint Recognition for Deepfake Audio: An Initial Dataset and Investigation
Title（参考訳）: deepfakeオーディオのためのシステム指紋認識 : 初期データセットと検討
Authors: Xinrui Yan, Jiangyan Yi, Chenglong Wang, Jianhua Tao, Junzuo Zhou, Hao Gu, Ruibo Fu
Abstract要約: システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提案する。最新の最先端のディープラーニング技術を利用する7つの中国ベンダーの音声合成システムからデータセットを収集した。
参考スコア（独自算出の注目度）: 51.06875680387692
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress of deep speech synthesis models has posed significant threats to society such as malicious content manipulation. Therefore, many studies have emerged to detect the so-called deepfake audio. However, existing works focus on the binary detection of real audio and fake audio. In real-world scenarios such as model copyright protection and digital evidence forensics, it is needed to know what tool or model generated the deepfake audio to explain the decision. This motivates us to ask: Can we recognize the system fingerprints of deepfake audio? In this paper, we present the first deepfake audio dataset for system fingerprint recognition (SFR) and conduct an initial investigation. We collected the dataset from the speech synthesis systems of seven Chinese vendors that use the latest state-of-the-art deep learning technologies, including both clean and compressed sets. In addition, to facilitate the further development of system fingerprint recognition methods, we provide extensive benchmarks that can be compared and research findings. The dataset will be publicly available. .
Abstract（参考訳）: 深層音声合成モデルの急速な進歩は、悪質なコンテンツ操作のような社会に大きな脅威をもたらした。そのため、いわゆるディープフェイク音声を検出するために多くの研究がなされている。しかし、既存の研究は、実際のオーディオと偽オーディオのバイナリ検出に焦点を当てている。モデル著作権保護やデジタル証拠法医学のような現実世界のシナリオでは、決定を説明するためにどのツールやモデルがディープフェイク音声を生成するかを知る必要がある。ディープフェイクオーディオのシステム指紋を認識できますか? 本稿では,システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提示し,初期調査を行う。クリーンセットと圧縮セットの両方を含む最新のディープラーニング技術を使用している7つの中国ベンダーの音声合成システムからデータセットを収集した。さらに,システム指紋認識手法のさらなる開発を促進するために,比較可能な広範囲なベンチマークと研究結果を提供する。データセットは公開される予定だ。 .

関連論文リスト

Towards Reliable Audio Deepfake Attribution and Model Recognition: A Multi-Level Autoencoder-Based Framework [8.11594945165255]
オーディオディープフェイクの拡散は、デジタル通信に対する信頼の高まりを示唆している。 LAVAは,音声のディープフェイク検出とモデル認識のための階層的なフレームワークである。生成技術を識別するAudio Deepfake Attribution (ADA) と、特定の生成モデルインスタンスを認識するAudio Deepfake Model Recognition (ADMR) である。
論文参考訳（メタデータ） (2025-08-04T15:31:13Z)
End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文参考訳（メタデータ） (2025-04-29T16:38:23Z)
Circumventing shortcuts in audio-visual deepfake detection datasets with unsupervised learning [3.453303606167197]
私たちは、最も広く使われているオーディオビデオのディープフェイクデータセットの2つが、これまで特定されていなかった突発的な特徴である、主要な沈黙に悩まされていることを示しています。フェイクビデオは、ごく短い沈黙の瞬間から始まり、この機能だけで、本物と偽のサンプルをほぼ完全に分離することができる。本研究では,実データのみに基づく学習モデルによる教師なし学習から教師なし学習へのシフトを提案する。
論文参考訳（メタデータ） (2024-11-29T18:58:20Z)
SafeEar: Content Privacy-Preserving Audio Deepfake Detection [17.859275594843965]
音声コンテンツにアクセスすることなくディープフェイク音声を検知する新しいフレームワークであるSafeEarを提案する。私たちのキーとなるアイデアは、ニューラルオーディオを、セマンティックおよび音響情報をオーディオサンプルから適切に分離する、新しいデカップリングモデルに組み込むことです。このようにして、セマンティックな内容が検出器に露出されることはない。
論文参考訳（メタデータ） (2024-09-14T02:45:09Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
A Multi-Stream Fusion Approach with One-Class Learning for Audio-Visual Deepfake Detection [17.285669984798975]
本稿では,ロバストな音声・視覚深度検出モデルを開発する上での課題について述べる。新たな世代のアルゴリズムが絶えず出現しており、検出方法の開発中にこれらのアルゴリズムは遭遇しない。表現レベルの正規化手法として,一級学習を用いたマルチストリーム融合手法を提案する。
論文参考訳（メタデータ） (2024-06-20T10:33:15Z)
Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文参考訳（メタデータ） (2024-05-03T15:27:11Z)
What to Remember: Self-Adaptive Continual Learning for Audio Deepfake Detection [53.063161380423715]
既存の検出モデルは、既知のディープフェイク音声を識別することに成功したが、新しい攻撃タイプに遭遇する際には苦労している。本稿では,Radian Weight Modification (RWM) と呼ばれる連続的な学習手法を提案する。
論文参考訳（メタデータ） (2023-12-15T09:52:17Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文参考訳（メタデータ） (2022-11-11T09:05:50Z)
Faked Speech Detection with Zero Prior Knowledge [2.407976495888858]
本稿では,入力音声を実物または模倣物として盲目的に分類する分類器を開発するニューラルネットワーク手法を提案する。本稿では,3層を隠蔽し,重層と落層を交互に交互に配置した逐次モデルに基づくディープニューラルネットワークを提案する。人間の観察者の場合の85%の精度に対して、テストケースの94%の正確な分類が得られた。
論文参考訳（メタデータ） (2022-09-26T10:38:39Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。