論文の概要: Few-Shot Speech Deepfake Detection Adaptation with Gaussian Processes
- arxiv url: http://arxiv.org/abs/2505.23619v1
- Date: Thu, 29 May 2025 16:26:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.985365
- Title: Few-Shot Speech Deepfake Detection Adaptation with Gaussian Processes
- Title(参考訳): ガウス過程を用いた短いショット音声深度検出適応
- Authors: Neta Glazer, David Chernin, Idan Achituve, Sharon Gannot, Ethan Fetaya,
- Abstract要約: ADD-GPは、オーディオディープフェイク検出(ADD)のためのガウスプロセス(GP)分類器に基づく数ショット適応フレームワークである
GPプロセスの柔軟性と強力なディープ埋め込みモデルを組み合わせることで、高い性能と適応性が得られることを示す。
このアプローチは、新しいTSモデルに対する堅牢性とワンショット適応性により、パーソナライズされた検出にも利用できることを示す。
- 参考スコア(独自算出の注目度): 22.780519147508105
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in Text-to-Speech (TTS) models, particularly in voice cloning, have intensified the demand for adaptable and efficient deepfake detection methods. As TTS systems continue to evolve, detection models must be able to efficiently adapt to previously unseen generation models with minimal data. This paper introduces ADD-GP, a few-shot adaptive framework based on a Gaussian Process (GP) classifier for Audio Deepfake Detection (ADD). We show how the combination of a powerful deep embedding model with the Gaussian processes flexibility can achieve strong performance and adaptability. Additionally, we show this approach can also be used for personalized detection, with greater robustness to new TTS models and one-shot adaptability. To support our evaluation, a benchmark dataset is constructed for this task using new state-of-the-art voice cloning models.
- Abstract(参考訳): 近年のTTS(Text-to-Speech)モデル,特に音声のクローニングにおいて,適応的で効率的なディープフェイク検出手法の需要が高まっている。
TTSシステムが進化を続けるにつれて、検出モデルは最小限のデータで、これまで見られなかった世代モデルに効率的に適応できなければならない。
本稿では、オーディオディープフェイク検出(ADD)のためのガウスプロセス(GP)分類器に基づく、数発の適応フレームワークであるADD-GPを紹介する。
我々は、強力なディープ埋め込みモデルとガウスプロセスの柔軟性を組み合わせることで、強力なパフォーマンスと適応性を実現する方法を示す。
さらに、この手法は、新たなTSモデルに対する堅牢性とワンショット適応性により、パーソナライズされた検出にも利用できることを示す。
評価を支援するために,新しい最先端音声クローニングモデルを用いて,このタスクのためのベンチマークデータセットを構築した。
関連論文リスト
- Deepfake Detection with Optimized Hybrid Model: EAR Biometric Descriptor via Improved RCNN [1.1356542363919058]
耳の微妙な動きや形状の変化を頑健に検出し,耳のディスクリプタを生成する。
また,改良RCNNによる耳バイオメトリック記述子を考慮した新しいハイブリッドディープフェイク検出モデルを提案する。
提案手法は,CNN (Convolution Neural Network), SqueezeNet, LeNet, LinkNet, LSTM (Long Short-Term Memory), DFP (Deepfake Predictor), ResNext+CNN+LSTMなどの従来のモデルより優れている。
論文 参考訳(メタデータ) (2025-03-16T07:01:29Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - SGEM: Test-Time Adaptation for Automatic Speech Recognition via
Sequential-Level Generalized Entropy Minimization [30.61075178799518]
テスト時間適応(TTA)法は、ソースデータなしで未ラベルのテストインスタンスに事前学習されたASRモデルを適用するために最近提案されている。
我々は、一般的なASRモデルに対して、SGEMと呼ばれる新しいTTAフレームワークを提案する。
SGEMは、ドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を達成する。
論文 参考訳(メタデータ) (2023-06-03T02:27:08Z) - Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data
Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。
我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文 参考訳(メタデータ) (2023-05-23T07:54:34Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。