論文の概要: SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection
- arxiv url: http://arxiv.org/abs/2511.21325v1
- Date: Wed, 26 Nov 2025 12:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.08626
- Title: SONAR: Spectral-Contrastive Audio Residuals for Generalizable Deepfake Detection
- Title(参考訳): SONAR:一般化可能なディープフェイク検出のためのスペクトルコントラストオーディオ残像
- Authors: Ido Nitzan HIdekel, Gal lifshitz, Khen Cohen, Dan Raviv,
- Abstract要約: Spectral-cONtrastive Audio Residuals (AR)は、ディープフェイクオーディオ検出器のための周波数誘導フレームワークである。
ARは音声信号を補完表現に切り離す。
ASVspoof 2021およびin-the-wildベンチマークで評価した。
- 参考スコア(独自算出の注目度): 6.042897432654865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deepfake (DF) audio detectors still struggle to generalize to out of distribution inputs. A central reason is spectral bias, the tendency of neural networks to learn low-frequency structure before high-frequency (HF) details, which both causes DF generators to leave HF artifacts and leaves those same artifacts under-exploited by common detectors. To address this gap, we propose Spectral-cONtrastive Audio Residuals (SONAR), a frequency-guided framework that explicitly disentangles an audio signal into complementary representations. An XLSR encoder captures the dominant low-frequency content, while the same cloned path, preceded by learnable SRM, value-constrained high-pass filters, distills faint HF residuals. Frequency cross-attention reunites the two views for long- and short-range frequency dependencies, and a frequency-aware Jensen-Shannon contrastive loss pulls real content-noise pairs together while pushing fake embeddings apart, accelerating optimization and sharpening decision boundaries. Evaluated on the ASVspoof 2021 and in-the-wild benchmarks, SONAR attains state-of-the-art performance and converges four times faster than strong baselines. By elevating faint high-frequency residuals to first-class learning signals, SONAR unveils a fully data-driven, frequency-guided contrastive framework that splits the latent space into two disjoint manifolds: natural-HF for genuine audio and distorted-HF for synthetic audio, thereby sharpening decision boundaries. Because the scheme operates purely at the representation level, it is architecture-agnostic and, in future work, can be seamlessly integrated into any model or modality where subtle high-frequency cues are decisive.
- Abstract(参考訳): ディープフェイク(DF)オーディオ検出器は、まだ分布入力の外部への一般化に苦慮している。
主な理由はスペクトルバイアスであり、高周波(HF)の詳細よりも前にニューラルネットワークが低周波構造を学習する傾向にある。
このギャップに対処するために、周波数誘導フレームワークであるSpectral-cONtrastive Audio Residuals (SONAR)を提案する。
XLSRエンコーダは、学習可能なSRM、値制約された高域通過フィルタ、希薄なHF残基に先行して、支配的な低周波コンテンツを捕捉する。
周波数クロスアテンションは、2つのビューを長距離および短距離の周波数依存性のために再結合し、周波数対応のJensen-Shannonコントラスト損失は、偽の埋め込みを分離し、最適化を加速し、決定境界を鋭くする。
ASVspoof 2021とin-the-wildベンチマークに基づいて評価され、SONARは最先端のパフォーマンスを獲得し、強いベースラインの4倍の速度で収束する。
SONARは、低周波残差を第一級学習信号に高めることにより、潜在空間を2つの非連結多様体に分割する完全データ駆動の周波数誘導コントラストフレームワークを公開している。
このスキームは純粋に表現レベルで機能するため、アーキテクチャに依存しず、将来の研究では微妙な高周波キューが決定される任意のモデルやモダリティにシームレスに統合することができる。
関連論文リスト
- Towards Frequency-Adaptive Learning for SAR Despeckling [10.764049665817629]
分割・分散アーキテクチャに基づく周波数適応型ヘテロジニアスデスペクリングモデルを提案する。
ノイズ特性の異なるサブネットワークを設計し,周波数成分の異なるサブネットワークを設計する。
エッジやテクスチャに富んだ高周波サブバンドに対して,ノイズ抑制と機能強化のための変形可能な畳み込みを備えた拡張U-Netを導入する。
論文 参考訳(メタデータ) (2025-11-08T07:08:22Z) - ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals [8.411477071838592]
本稿では,周波数位置埋め込みと高度なバンド分割アーキテクチャを組み合わせた新しい基礎モデルECHOを提案する。
本手法は,様々な種類の機械信号データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-08-20T13:10:44Z) - DiffPR: Diffusion-Based Phase Reconstruction via Frequency-Decoupled Learning [4.560284382063488]
オフアクシス定量的位相イメージング(QPI)に深層学習を適用する場合、過平滑化は持続的な問題である。
この問題をスペクトルバイアスに追従し、ハイレベルなスキップ接続によってバイアスが強化されていることを示す。
2段階の周波数分離フレームワークであるDiffPRを紹介する。
論文 参考訳(メタデータ) (2025-06-12T17:08:45Z) - F2Net: A Frequency-Fused Network for Ultra-High Resolution Remote Sensing Segmentation [10.67983913373955]
F2Netは、UHR画像を特殊な処理のために高周波数成分と低周波数成分に分解する周波数認識フレームワークである。
ハイブリッド周波数融合モジュールは、2つの新しい目的によって導かれるこれらの観測を統合する。
F2Netは、それぞれ80.22のmIoUと83.39の最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-09T15:09:49Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - A Wavelet-based Stereo Matching Framework for Solving Frequency Convergence Inconsistency [9.668149257194887]
周波数収束不整合を解消するためのウェーブレットベースのステレオマッチングフレームワーク(ウェーブレット・ステレオ)を提案する。
高周波数成分と低周波成分を別々に処理することで、我々は、エッジにおける高周波情報とスムーズな領域における低周波情報を同時に洗練することができる。
論文 参考訳(メタデータ) (2025-05-23T15:28:03Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - Sharpening Neural Implicit Functions with Frequency Consolidation Priors [53.6277160912059]
符号付き距離関数 (Signed Distance Function, SDF) は、高忠実度3D表面を表現するために重要な暗黙の表現である。
現在の手法は主にニューラルネットワークを利用して、署名された3Dポイントクラウドやマルチビューイメージなど、さまざまな監督機関からSDFを学ぶ。
本研究では、高周波成分を回収し、よりシャープで完全な表面を追求することにより、低周波SDF観測を高速化する手法を提案する。
論文 参考訳(メタデータ) (2024-12-27T16:18:46Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。