論文の概要: Two Views, One Truth: Spectral and Self-Supervised Features Fusion for Robust Speech Deepfake Detection
- arxiv url: http://arxiv.org/abs/2507.20417v1
- Date: Sun, 27 Jul 2025 21:22:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.65716
- Title: Two Views, One Truth: Spectral and Self-Supervised Features Fusion for Robust Speech Deepfake Detection
- Title(参考訳): 1つの真理:ロバスト音声深度検出のためのスペクトルと自己スーパービジョンの融合
- Authors: Yassine El Kheir, Arnab Das, Enes Erdem Erdogan, Fabian Ritter-Guttierez, Tim Polzehl, Sebastian Möller,
- Abstract要約: 合成音声の最近の進歩は、音声のディープフェイクをますます現実的なものにし、重大なセキュリティリスクを生じさせている。
生波形の埋め込みやスペクトルに基づく特徴など、単一モードに依存する既存の検出方法は、非スプーフ障害に対して脆弱である。
自己教師付き学習(SSL)に基づく表現と手作りのスペクトル記述子を統合するハイブリッド融合フレームワークについて検討する。
- 参考スコア(独自算出の注目度): 11.121265242990166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in synthetic speech have made audio deepfakes increasingly realistic, posing significant security risks. Existing detection methods that rely on a single modality, either raw waveform embeddings or spectral based features, are vulnerable to non spoof disturbances and often overfit to known forgery algorithms, resulting in poor generalization to unseen attacks. To address these shortcomings, we investigate hybrid fusion frameworks that integrate self supervised learning (SSL) based representations with handcrafted spectral descriptors (MFCC , LFCC, CQCC). By aligning and combining complementary information across modalities, these fusion approaches capture subtle artifacts that single feature approaches typically overlook. We explore several fusion strategies, including simple concatenation, cross attention, mutual cross attention, and a learnable gating mechanism, to optimally blend SSL features with fine grained spectral cues. We evaluate our approach on four challenging public benchmarks and report generalization performance. All fusion variants consistently outperform an SSL only baseline, with the cross attention strategy achieving the best generalization with a 38% relative reduction in equal error rate (EER). These results confirm that joint modeling of waveform and spectral views produces robust, domain agnostic representations for audio deepfake detection.
- Abstract(参考訳): 合成音声の最近の進歩は、音声のディープフェイクをますます現実的なものにし、重大なセキュリティリスクを生じさせている。
生波形の埋め込みやスペクトルベースの特徴など、単一モードに依存する既存の検出方法は、非スプーフ障害に対して脆弱であり、しばしば既知の偽造アルゴリズムに過度に適合しているため、目に見えない攻撃に対する一般化が不十分である。
これらの欠点に対処するために,自己教師付き学習(SSL)に基づく表現を手作りスペクトル記述子(MFCC, LFCC, CQCC)と統合するハイブリッド融合フレームワークについて検討する。
これらの融合アプローチは、モダリティ間で相補的な情報を調整し、組み合わせることで、単一の特徴アプローチが通常見落としている微妙なアーティファクトをキャプチャする。
簡単な結合、クロスアテンション、相互クロスアテンション、学習可能なゲーティング機構など、いくつかの融合戦略を探求し、SSL特徴をきめ細かいスペクトル的手がかりで最適にブレンドする。
我々は,4つの挑戦的な公開ベンチマークに対するアプローチを評価し,一般化性能を報告する。
すべての融合変種はSSLのみのベースラインを一貫して上回り、クロスアテンション戦略は、EER(Equal error rate)の38%の相対的な減少で最高の一般化を達成する。
これらの結果は、波形とスペクトルビューの結合モデリングにより、オーディオディープフェイク検出のための堅牢で領域に依存しない表現が得られることを確認した。
関連論文リスト
- CLIP Meets Diffusion: A Synergistic Approach to Anomaly Detection [54.85000884785013]
異常検出は、異常の定義の曖昧さ、異常型の多様性、トレーニングデータの不足による複雑な問題である。
識別的基盤モデルと生成的基礎モデルの両方を活用するCLIPfusionを提案する。
本手法は, 異常検出の多面的課題に対処する上で, マルチモーダル・マルチモデル融合の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2025-06-13T13:30:15Z) - CAD: A General Multimodal Framework for Video Deepfake Detection via Cross-Modal Alignment and Distillation [24.952907733127223]
クロスモーダルアライメント・蒸留(CAD)を用いたビデオディープフェイク検出のための一般的なフレームワークを提案する。
1)高レベルのセマンティックシンセシスにおける矛盾を識別するクロスモーダルアライメント(例:リップ音声ミスマッチ)、2)モダリティ特異的な法医学的痕跡(例:合成音声のスペクトル歪み)を保存しながらミスマッチを緩和するクロスモーダル蒸留(例:合成音声のスペクトル歪み)である。
論文 参考訳(メタデータ) (2025-05-21T08:11:07Z) - SpecSphere: Dual-Pass Spectral-Spatial Graph Neural Networks with Certified Robustness [1.7495213911983414]
SpecSphereは、最初のデュアルパススペクトル空間GNNで、$ell_0$のエッジフリップと$ell_inftyversaの特徴摂動に対する全ての予測を認証する。
本モデルでは,Chebyshev-polynomial スペクトル分枝と注目空間分枝を結合し,その表現を協調アドリアル min-max ゲームで訓練した軽量なゲームを通して融合する。
論文 参考訳(メタデータ) (2025-05-13T08:00:16Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Optimizing Speech Multi-View Feature Fusion through Conditional Computation [51.23624575321469]
自己教師付き学習(SSL)機能は、軽量で多目的な多視点音声表現を提供する。
SSLは、FBanksのような従来のスペクトル機能とアップデートの方向で競合する。
本稿では,条件計算に基づく新しい一般化された特徴融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T12:12:06Z) - Spectrum-oriented Point-supervised Saliency Detector for Hyperspectral Images [13.79887292039637]
ハイパースペクトル・サリエント物体検出(HSOD)における点監督について紹介する。
本稿では,従来のHSOD法から派生したスペクトル・サリエンシを,そのフレームワーク内で重要なスペクトル表現として組み込む。
本稿では,HSIに特化して設計された新しいパイプラインを提案し,点監督戦略に関連した性能低下を効果的に軽減する。
論文 参考訳(メタデータ) (2024-12-24T02:52:43Z) - Hyperspectral Image Reconstruction via Combinatorial Embedding of
Cross-Channel Spatio-Spectral Clues [6.580484964018551]
既存の学習に基づくハイパースペクトル再構成手法は、ハイパースペクトルバンド間の情報を完全に活用する際の限界を示す。
それぞれの超スペクトル空間における相互依存性について検討する。
これらの組み込み機能は、チャネル間相関をクエリすることで、完全に活用することができる。
論文 参考訳(メタデータ) (2023-12-18T11:37:19Z) - Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms [19.514932118278523]
本稿では,S2pecNetというスペクトル融合再構成戦略を用いた新しい深層学習手法を提案する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失がさらに低減される。
提案手法は,広く使用されているデータセット上でのEERの0.77%で最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T04:51:15Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Attack Agnostic Dataset: Towards Generalization and Stabilization of
Audio DeepFake Detection [0.4511923587827302]
音声のディープフェイク検出法は, 優れた一般化と安定性を特徴とする。
本稿では,現状のDeepFake検出手法を徹底的に分析し,様々な音声特徴(フロントエンド)について考察する。
LFCC と mel-spectrogram のフロントエンドを用いたLCNN に基づくモデルを提案する。
論文 参考訳(メタデータ) (2022-06-27T12:30:44Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。