論文の概要: WST-X Series: Wavelet Scattering Transform for Interpretable Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2602.02980v1
- Date: Tue, 03 Feb 2026 01:39:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.178894
- Title: WST-X Series: Wavelet Scattering Transform for Interpretable Speech Deepfake Detection
- Title(参考訳): WST-Xシリーズ:音声深度検出のためのウェーブレット散乱変換
- Authors: Xi Xuan, Davide Carbone, Ruchi Pandey, Wenxin Zhang, Tomi H. Kinnunen,
- Abstract要約: 手作りのフィルタバンク機能は透明だが、ハイレベルなセマンティックな詳細を捉えるには限界がある。
自己監督的特徴は解釈可能性に欠けており、きめ細かいスペクトル異常を見落としている可能性がある。
We propose the WST-X series, a novel family of feature extractors which which are the best of both worlds through the wavelet scattering transformation。
- 参考スコア(独自算出の注目度): 4.929669101487171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Designing front-ends for speech deepfake detectors primarily focuses on two categories. Hand-crafted filterbank features are transparent but are limited in capturing high-level semantic details, often resulting in performance gaps compared to self-supervised (SSL) features. SSL features, in turn, lack interpretability and may overlook fine-grained spectral anomalies. We propose the WST-X series, a novel family of feature extractors that combines the best of both worlds via the wavelet scattering transform (WST), integrating wavelets with nonlinearities analogous to deep convolutional networks. We investigate 1D and 2D WSTs to extract acoustic details and higher-order structural anomalies, respectively. Experimental results on the recent and challenging Deepfake-Eval-2024 dataset indicate that WST-X outperforms existing front-ends by a wide margin. Our analysis reveals that a small averaging scale ($J$), combined with high-frequency and directional resolutions ($Q, L$), is critical for capturing subtle artifacts. This underscores the value of translation-invariant and deformation-stable features for robust and interpretable speech deepfake detection.
- Abstract(参考訳): 音声ディープフェイク検出のためのフロントエンドの設計は主に2つのカテゴリに焦点を当てている。
手作りのフィルタバンク機能は透過的だが、ハイレベルなセマンティックな詳細をキャプチャするのに制限がある。
SSLの機能は解釈性に欠けており、きめ細かいスペクトル異常を見落としてしまう可能性がある。
We propose the WST-X series, a novel family of feature extractor which which are the best of both worlds through the wavelet scattering transform (WST)。
音響的詳細と高次構造異常をそれぞれ抽出する1次元WSTと2次元WSTについて検討した。
最近のDeepfake-Eval-2024データセットの実験結果は、WST-Xが既存のフロントエンドよりも広いマージンで優れていることを示している。
分析の結果,小型平均値(J$)と高周波および指向性分解能(Q,L$)を組み合わせることで,微妙なアーティファクトを捉えることが重要であることがわかった。
このことは、頑健で解釈可能な音声ディープフェイク検出のための翻訳不変性と変形安定性の価値を浮き彫りにする。
関連論文リスト
- FOCUS: Fused Observation of Channels for Unveiling Spectra [13.262409939223577]
凍結したViTに対して、信頼性と効率的な空間スペクトル解釈を可能にする最初のフレームワークであるFOCUSを提案する。
FOCUSは、バンドレベルのIoUを15%改善し、注意崩壊を40%以上削減し、専門家のアノテーションと密接に一致したサリエンシ結果を生成する。
論文 参考訳(メタデータ) (2025-07-20T02:08:23Z) - Transformer-Driven Inverse Problem Transform for Fast Blind Hyperspectral Image Dehazing [1.8679829796354375]
ハイパースペクトル脱ハージング(HyDHZ)は、その後の識別および分類作業を容易にする重要な信号処理技術となっている。
本稿では,HyDHZに強力な空間スペクトル変換器を初めて導入する。
実験では、色歪みの少ないT2HyDHZの優位性を実証した。
論文 参考訳(メタデータ) (2025-01-03T17:52:51Z) - DiffFormer: a Differential Spatial-Spectral Transformer for Hyperspectral Image Classification [3.271106943956333]
超スペクトル画像分類(HSIC)は、高次元データをスペクトル情報と空間情報で分析する可能性から注目されている。
本稿では、スペクトル冗長性や空間不連続性といったHSICの固有の課題に対処するために、差分空間スペクトル変換器(DiffFormer)を提案する。
ベンチマークハイパースペクトルデータセットの実験は、分類精度、計算効率、一般化可能性の観点から、DiffFormerの優位性を示す。
論文 参考訳(メタデータ) (2024-12-23T07:21:41Z) - DMSSN: Distilled Mixed Spectral-Spatial Network for Hyperspectral Salient Object Detection [12.823338405434244]
HSOD(Hyperspectral Salient Object Detection)は,様々な用途において有望である。
特徴抽出過程における高スペクトル画像の特徴的特性(HSI)は,従来は不十分であった。
我々は、MSST(Distilled Spectral-Spatial Transformer)を含むDMSSN(Distilled Mixed Spectral-Spatial Network)を提案する。
この分野でのデータ不足の問題に対処するため、大規模なHSODデータセットHSOD-BITを作成しました。
論文 参考訳(メタデータ) (2024-03-31T14:04:57Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral
Reconstruction [148.26195175240923]
効率的なスペクトル再構成のためのマルチステージスペクトル変換器(MST++)を提案する。
NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。
論文 参考訳(メタデータ) (2022-04-17T02:39:32Z) - Spatial-Spectral Feedback Network for Super-Resolution of Hyperspectral
Imagery [11.76638109321532]
ハイパースペクトル画像における高次元および複雑なスペクトルパターンは、バンド間の空間情報とスペクトル情報の同時探索を困難にする。
利用可能なハイパースペクトルトレーニングサンプルの数は極めて少なく、ディープニューラルネットワークのトレーニング時にオーバーフィットする可能性がある。
グローバルスペクトル帯域からの高レベル情報を持つ局所スペクトル帯域間の低レベル表現を洗練するための新しい空間スペクトルフィードバックネットワーク(ssfn)を提案する。
論文 参考訳(メタデータ) (2021-03-07T13:28:48Z) - Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in
Frequency Domain [88.7339322596758]
本論文では,空間画像と位相スペクトルを組み合わせ,顔の偽造のアップサンプリング成果をキャプチャするSPSL(Spatial-Phase Shallow Learning)法を提案する。
SPSLは、クロスデータセット評価における最先端性能とマルチクラス分類を実現し、単一データセット評価において同等の結果を得ることができる。
論文 参考訳(メタデータ) (2021-03-02T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。