論文の概要: STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution
- arxiv url: http://arxiv.org/abs/2505.19644v1
- Date: Mon, 26 May 2025 08:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.263101
- Title: STOPA: A Database of Systematic VariaTion Of DeePfake Audio for Open-Set Source Tracing and Attribution
- Title(参考訳): STOPA: オープンセットソース追跡と属性のためのDeePfakeオーディオの系統的VariaTionデータベース
- Authors: Anton Firc, Manasi Chibber, Jagabandhu Mishra, Vishwanath Pratap Singh, Tomi Kinnunen, Kamil Malinka,
- Abstract要約: STOPAは、13の合成器から8つのAM、6つの設定、700kサンプルをカバーするディープフェイク音声ソーストレースのためのデータセットである。
STOPAは、ボコーダモデル、音響モデル、事前訓練された重みの選択など、幅広い生成要因をカバーする体系的に制御されたフレームワークを提供する。
この制御により帰属精度が向上し、法医学的分析、ディープフェイク検出、生成モデルの透明性が向上する。
- 参考スコア(独自算出の注目度): 6.860131654491485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key research area in deepfake speech detection is source tracing - determining the origin of synthesised utterances. The approaches may involve identifying the acoustic model (AM), vocoder model (VM), or other generation-specific parameters. However, progress is limited by the lack of a dedicated, systematically curated dataset. To address this, we introduce STOPA, a systematically varied and metadata-rich dataset for deepfake speech source tracing, covering 8 AMs, 6 VMs, and diverse parameter settings across 700k samples from 13 distinct synthesisers. Unlike existing datasets, which often feature limited variation or sparse metadata, STOPA provides a systematically controlled framework covering a broader range of generative factors, such as the choice of the vocoder model, acoustic model, or pretrained weights, ensuring higher attribution reliability. This control improves attribution accuracy, aiding forensic analysis, deepfake detection, and generative model transparency.
- Abstract(参考訳): ディープフェイク音声検出における重要な研究領域は、ソーストレースであり、合成発話の起源を決定する。
アプローチには、音響モデル(AM)、ボコーダモデル(VM)、その他の世代固有のパラメータの同定が含まれる。
しかし、進歩は、専用で体系的にキュレートされたデータセットの欠如によって制限される。
STOPAは、8つのAM、6つのVM、および13の異なる合成器の700kサンプルにわたる多様なパラメータ設定を含む、ディープフェイク音声ソーストレースのための体系的に変化し、メタデータに富んだデータセットである。
制限されたバリエーションやスパースメタデータを特徴とする既存のデータセットとは異なり、STOPAは、ボコーダモデル、音響モデル、事前訓練された重みの選択など、より広範な生成要因をカバーする体系的に制御されたフレームワークを提供し、より高い帰属信頼性を保証する。
この制御により帰属精度が向上し、法医学的分析、ディープフェイク検出、生成モデルの透明性が向上する。
関連論文リスト
- End-to-end Audio Deepfake Detection from RAW Waveforms: a RawNet-Based Approach with Cross-Dataset Evaluation [8.11594945165255]
生波形を直接操作するオーディオディープフェイク検出のためのエンドツーエンドのディープラーニングフレームワークを提案する。
我々のモデルであるRawNetLiteは、手作りの事前処理なしでスペクトルと時間の両方の特徴を捉えるために設計された軽量な畳み込み並列アーキテクチャである。
論文 参考訳(メタデータ) (2025-04-29T16:38:23Z) - Where are we in audio deepfake detection? A systematic analysis over generative and detection models [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供する。
従来のモデルベース検出システムと基礎モデルベース検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - MIMII-Gen: Generative Modeling Approach for Simulated Evaluation of Anomalous Sound Detection System [5.578413517654703]
不十分な記録と異常の不足は、堅牢な異常検出システムを開発する上で重要な課題である。
本稿では,エンコーダ・デコーダ・フレームワークを統合した遅延拡散モデルを用いて,機械音の多様な異常を生成する手法を提案する。
論文 参考訳(メタデータ) (2024-09-27T08:21:31Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。