論文の概要: A General Model for Deepfake Speech Detection: Diverse Bonafide Resources or Diverse AI-Based Generators
- arxiv url: http://arxiv.org/abs/2603.27557v1
- Date: Sun, 29 Mar 2026 07:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.025469
- Title: A General Model for Deepfake Speech Detection: Diverse Bonafide Resources or Diverse AI-Based Generators
- Title(参考訳): ディープフェイク音声検出のための一般的なモデル--バイバース・ボナフィド・リソースやAIベース・ジェネレータ
- Authors: Lam Pham, Khoi Vu, Dat Tran, David Fischinger, Simon Freitter, Marcel Hasenbalg, Davide Antonutti, Alexander Schindler, Martin Boyer, Ian McLoughlin,
- Abstract要約: 本稿では,Deepfake Speech Detection (DSD)モデルの性能に影響を与えるBonafide Resource (BR) と AI-based Generator (AG) の2つの要因を解析する。
本稿では,Bonafide Resources (BR) とAIベースのGenerators (AG) のバランスが,一般的なDeepfake Speech Detection (DSD) モデルを訓練し,実現するための鍵となる要素であることを示す。
- 参考スコア(独自算出の注目度): 34.27836712278442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we analyze two main factors of Bonafide Resource (BR) or AI-based Generator (AG) which affect the performance and the generality of a Deepfake Speech Detection (DSD) model. To this end, we first propose a deep-learning based model, referred to as the baseline. Then, we conducted experiments on the baseline by which we indicate how Bonafide Resource (BR) and AI-based Generator (AG) factors affect the threshold score used to detect fake or bonafide input audio in the inference process. Given the experimental results, a dataset, which re-uses public Deepfake Speech Detection (DSD) datasets and shows a balance between Bonafide Resource (BR) or AI-based Generator (AG), is proposed. We then train various deep-learning based models on the proposed dataset and conduct cross-dataset evaluation on different benchmark datasets. The cross-dataset evaluation results prove that the balance of Bonafide Resources (BR) and AI-based Generators (AG) is the key factor to train and achieve a general Deepfake Speech Detection (DSD) model.
- Abstract(参考訳): 本稿では,Bonafide Resource (BR) と AI-based Generator (AG) の2つの要因を分析し,Deepfake Speech Detection (DSD) モデルの性能と一般性に影響を与える。
そこで我々はまず,ベースラインと呼ばれるディープラーニングに基づくモデルを提案する。
そこで,本研究では,Bonafide Resource (BR) とAIベースジェネレータ (AG) の要素が,推論過程における偽またはBonafide入力音声の検出に使用する閾値にどのように影響するかを示すベースライン実験を行った。
実験結果から,パブリックなDeepfake Speech Detection(DSD)データセットを再使用し,Bonafide Resource(BR)とAIベースのGenerator(AG)のバランスを示すデータセットを提案する。
次に、提案したデータセットに基づいて様々なディープラーニングベースのモデルをトレーニングし、異なるベンチマークデータセットでクロスデータセット評価を行う。
クロスデータセット評価の結果、Bonafide Resources (BR) とAIベースのGenerators (AG) のバランスが、一般的なDeepfake Speech Detection (DSD) モデルを訓練し、達成するための鍵となる要因であることが証明された。
関連論文リスト
- Human Texts Are Outliers: Detecting LLM-generated Texts via Out-of-distribution Detection [71.59834293521074]
我々は,人間によるテキストと機械によるテキストを区別する枠組みを開発した。
提案手法は,DeepFakeデータセット上で98.3%のAUROCとAUPRを8.9%のFPR95で達成する。
コード、事前トレーニングされたウェイト、デモがリリースされる。
論文 参考訳(メタデータ) (2025-10-07T08:14:45Z) - Zero-Shot Image Anomaly Detection Using Generative Foundation Models [2.241618130319058]
本研究は,意味的異常検出のための基礎的ツールとしてスコアベース生成モデルの利用について検討する。
スタインスコアの誤差を解析することにより,各ターゲットデータセットの再学習を必要とせず,異常サンプルを識別する新しい手法を提案する。
このアプローチは最先端よりも改善され、ひとつのデータセット — CelebA -- 上で単一のモデルをトレーニングすることに依存しています。
論文 参考訳(メタデータ) (2025-07-30T13:56:36Z) - LEAD: Large Foundation Model for EEG-Based Alzheimer's Disease Detection [9.286594823355363]
認知症における脳波解析のための最初の大規模基礎モデルであるLEADを提案する。
私たちは、12のデータセット(AD関連3つ、非AD9つ)で事前トレーニングを行い、4つのADデータセットで微調整/テストを行いました。
10基のベースラインと比較して、LEADは一貫して被写体レベルの検出性能が優れている。
論文 参考訳(メタデータ) (2025-02-02T04:19:35Z) - Multi-Source Domain Adaptation with Transformer-based Feature Generation
for Subject-Independent EEG-based Emotion Recognition [0.5439020425819]
本稿では,複数の情報源からの情報を活用するために,トランスフォーマーベースの特徴生成器(MSDA-TF)を用いたマルチソース領域適応手法を提案する。
適応過程において、相関値に基づいてソース対象をグループ化し、ソース内だけでなく、対象対象のモーメントを各ソースと整合させることを目的としている。
MSDA-TFはSEEDデータセット上で検証され、有望な結果が得られた。
論文 参考訳(メタデータ) (2024-01-04T16:38:47Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - Multi-Level Knowledge Distillation for Out-of-Distribution Detection in
Text [12.428289757859433]
自己教師付き表現学習は、アウト・オブ・ディストリビューション(OoD)検出に有用な要素であることが証明されている。
本稿では,両OoD検出手法の相補的特性を解析する。
本稿では,その限界を緩和しつつ,その強度を統合した多段階の知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-11-21T09:41:25Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。