論文の概要: HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection
- arxiv url: http://arxiv.org/abs/2602.01032v1
- Date: Sun, 01 Feb 2026 05:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.542806
- Title: HierCon: Hierarchical Contrastive Attention for Audio Deepfake Detection
- Title(参考訳): HierCon: オーディオディープフェイク検出のための階層的コントラスト注意
- Authors: Zhili Nicholas Liang, Soyeon Caren Han, Qizhou Wang, Christopher Leckie,
- Abstract要約: 現代のTSや音声変換システムが生み出すオーディオディープフェイクは、実際の音声と区別することがますます難しくなり、セキュリティとオンライン信頼の深刻なリスクが高まる。
階層的な階層型アテンションフレームワークであるHierConを提案する。これは,時間的フレーム,隣接するレイヤ,レイヤグループ間の依存性をモデル化し,ドメイン不変な埋め込みを奨励する,マージンベースのコントラスト学習と組み合わせたものだ。
- 参考スコア(独自算出の注目度): 21.083747008336175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio deepfakes generated by modern TTS and voice conversion systems are increasingly difficult to distinguish from real speech, raising serious risks for security and online trust. While state-of-the-art self-supervised models provide rich multi-layer representations, existing detectors treat layers independently and overlook temporal and hierarchical dependencies critical for identifying synthetic artefacts. We propose HierCon, a hierarchical layer attention framework combined with margin-based contrastive learning that models dependencies across temporal frames, neighbouring layers, and layer groups, while encouraging domain-invariant embeddings. Evaluated on ASVspoof 2021 DF and In-the-Wild datasets, our method achieves state-of-the-art performance (1.93% and 6.87% EER), improving over independent layer weighting by 36.6% and 22.5% respectively. The results and attention visualisations confirm that hierarchical modelling enhances generalisation to cross-domain generation techniques and recording conditions.
- Abstract(参考訳): 現代のTSや音声変換システムが生み出すオーディオディープフェイクは、実際の音声と区別することがますます難しくなり、セキュリティとオンライン信頼の深刻なリスクが高まる。
最先端の自己管理モデルはリッチな多層表現を提供するが、既存の検出器は層を独立して扱い、合成人工物の識別に不可欠な時間的および階層的依存関係を見落としている。
階層的な階層型アテンションフレームワークであるHierConを提案する。これは,時間的フレーム,隣接するレイヤ,レイヤグループ間の依存性をモデル化し,ドメイン不変な埋め込みを奨励する,マージンベースのコントラスト学習と組み合わせたものだ。
ASVspoof 2021 DF と In-the-Wild のデータセットから評価し,最先端性能 (1.93% と 6.87% EER) を達成し,それぞれ36.6% と22.5% の独立層重み付けを向上した。
その結果,階層的モデリングがクロスドメイン生成技術や記録条件の一般化を促進することが確認された。
関連論文リスト
- Audio Deepfake Detection in the Age of Advanced Text-to-Speech models [0.0]
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
テキスト音声合成システム(TTS)の最近の進歩は,合成音声のリアリズムを著しく高めている。
論文 参考訳(メタデータ) (2026-01-28T11:39:40Z) - Test-time Adaptive Hierarchical Co-enhanced Denoising Network for Reliable Multimodal Classification [55.56234913868664]
マルチモーダルデータを用いた信頼性学習のためのTAHCD(Test-time Adaptive Hierarchical Co-enhanced Denoising Network)を提案する。
提案手法は,最先端の信頼性の高いマルチモーダル学習手法と比較して,優れた分類性能,堅牢性,一般化を実現する。
論文 参考訳(メタデータ) (2026-01-12T03:14:12Z) - Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - High-Quality Sound Separation Across Diverse Categories via Visually-Guided Generative Modeling [65.02357548201188]
DAVIS(Diffusion-based Audio-VIsual separation framework)を提案する。
本フレームワークは、混合音声入力と関連する視覚情報に基づいて、ノイズ分布から直接、所望の分離音スペクトルを合成することによって機能する。
論文 参考訳(メタデータ) (2025-09-26T08:46:00Z) - HierCVAE: Hierarchical Attention-Driven Conditional Variational Autoencoders for Multi-Scale Temporal Modeling [7.900277891102576]
複雑なシステムにおける時間モデリングには、複数の時間スケールで依存関係をキャプチャする必要がある。
階層型アテンション機構と条件付き変分オートエンコーダを組み合わせた新しいアーキテクチャであるHierCVAEを提案する。
論文 参考訳(メタデータ) (2025-08-26T10:55:35Z) - Quality-Aware Language-Conditioned Local Auto-Regressive Anomaly Synthesis and Detection [30.77558600436759]
ARAS(ARAS)は、言語条件付き自動回帰異常合成手法である。
トークンアンコールによる遅延編集によって、ローカルでテキスト指定の欠陥を通常の画像に注入する。
欠陥リアリズムを著しく強化し、きめ細かい材料テクスチャを保存し、合成された異常に対して連続的な意味制御を提供する。
論文 参考訳(メタデータ) (2025-08-05T15:07:32Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。