論文の概要: WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2510.05305v1
- Date: Mon, 06 Oct 2025 19:17:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:07.950787
- Title: WaveSP-Net: Learnable Wavelet-Domain Sparse Prompt Tuning for Speech Deepfake Detection
- Title(参考訳): WaveSP-Net:音声ディープフェイク検出のための学習可能なウェーブレット領域スパースプロンプトチューニング
- Authors: Xi Xuan, Xuechen Liu, Wenxin Zhang, Yi-Cheng Lin, Xiaojian Lin, Tomi Kinnunen,
- Abstract要約: ディープフェイク検出のためのパラメータ効率の高いフロントエンドを新たに導入する。
また、部分WSPT-XLSRフロントエンドと双方向のマンバベースバックエンドを組み合わせた新しいアーキテクチャであるWaveSP-Netを提案する。
- 参考スコア(独自算出の注目度): 14.662708385517597
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern front-end design for speech deepfake detection relies on full fine-tuning of large pre-trained models like XLSR. However, this approach is not parameter-efficient and may lead to suboptimal generalization to realistic, in-the-wild data types. To address these limitations, we introduce a new family of parameter-efficient front-ends that fuse prompt-tuning with classical signal processing transforms. These include FourierPT-XLSR, which uses the Fourier Transform, and two variants based on the Wavelet Transform: WSPT-XLSR and Partial-WSPT-XLSR. We further propose WaveSP-Net, a novel architecture combining a Partial-WSPT-XLSR front-end and a bidirectional Mamba-based back-end. This design injects multi-resolution features into the prompt embeddings, which enhances the localization of subtle synthetic artifacts without altering the frozen XLSR parameters. Experimental results demonstrate that WaveSP-Net outperforms several state-of-the-art models on two new and challenging benchmarks, Deepfake-Eval-2024 and SpoofCeleb, with low trainable parameters and notable performance gains. The code and models are available at https://github.com/xxuan-acoustics/WaveSP-Net.
- Abstract(参考訳): 音声深度検出のための最新のフロントエンド設計は、XLSRのような大規模訓練済みモデルの完全な微調整に依存している。
しかし、このアプローチはパラメータ効率が良くないため、現実的で夢中なデータ型への準最適一般化につながる可能性がある。
これらの制約に対処するため、古典的な信号処理変換でプロンプトチューニングを融合するパラメータ効率の高いフロントエンドを新たに導入する。
これにはフーリエ変換を使用するフーリエPT-XLSRとウェーブレット変換に基づく2つの変種(WSPT-XLSRと部分WSPT-XLSR)が含まれる。
さらに、部分WSPT-XLSRフロントエンドと双方向のマンバベースバックエンドを組み合わせた新しいアーキテクチャであるWaveSP-Netを提案する。
この設計では, 凍結XLSRパラメータを変更することなく, 微妙な合成アーティファクトの局所化が促進される。
実験結果から、WaveSP-NetはDeepfake-Eval-2024とSpofCelebの2つの新しいベンチマークにおいて、トレーニング可能なパラメータが低く、パフォーマンスが顕著な2つの最新モデルよりも優れていることが示された。
コードとモデルはhttps://github.com/xxuan-acoustics/WaveSP-Netで公開されている。
関連論文リスト
- Learning from Scratch: Structurally-masked Transformer for Next Generation Lib-free Simulation [5.564681128355971]
本稿では,多段階データパスのパワーとタイミング予測のためのニューラルネットワークフレームワークを提案する。
私たちの知る限りでは、これは標準セル用に明示的に設計された言語ベースのネットリスト対応ニューラルネットワークとしては初めてのものです。
論文 参考訳(メタデータ) (2025-07-23T10:46:25Z) - Cross-Frequency Implicit Neural Representation with Self-Evolving Parameters [52.574661274784916]
Inlicit Neural representation (INR) は視覚データ表現の強力なパラダイムとして登場した。
本研究では,データを4つの周波数成分に分離し,ウェーブレット空間でINRを用いるHaar Wavelet変換(CF-INR)を用いた自己進化型クロス周波数INRを提案する。
CF-INRは画像の回帰, 塗装, 装飾, 雲の除去など, 様々な視覚的データ表現および回復タスクで評価される。
論文 参考訳(メタデータ) (2025-04-15T07:14:35Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Lightweight and High-Fidelity End-to-End Text-to-Speech with Multi-Band
Generation and Inverse Short-Time Fourier Transform [9.606821628015933]
マルチバンド生成と逆ショートタイムフーリエ変換を用いた軽量なエンドツーエンドテキスト音声合成モデルを提案する。
実験結果から,本モデルでは音声を自然に合成し,VITSで合成した。
より小型のモデルでは、自然性と推論速度の両方に関して軽量のベースラインモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-28T08:15:05Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Parameter Efficient Deep Probabilistic Forecasting [0.0]
本稿では,両方向の時間的畳み込みネットワーク(BiTCN)を提案する。
提案手法は,TransformerベースのアプローチとWaveNetを含む4つの最先端確率予測手法と同等に動作する。
提案手法はTransformerベースの手法よりもはるかに少ないパラメータを必要とすることが実証された。
論文 参考訳(メタデータ) (2021-12-06T10:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。