論文の概要: Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms
- arxiv url: http://arxiv.org/abs/2308.09302v1
- Date: Fri, 18 Aug 2023 04:51:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:35:57.242534
- Title: Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms
- Title(参考訳): 多次元スペクトログラムを用いた融合再構成学習によるロバストなオーディオアンチスプーフィング
- Authors: Penghui Wen, Kun Hu, Wenxi Yue, Sen Zhang, Wanlei Zhou, Zhiyong Wang
- Abstract要約: 本稿では,S2pecNetというスペクトル融合再構成戦略を用いた新しい深層学習手法を提案する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失がさらに低減される。
提案手法は,広く使用されているデータセット上でのEERの0.77%で最先端の性能を達成した。
- 参考スコア(独自算出の注目度): 19.514932118278523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robust audio anti-spoofing has been increasingly challenging due to the
recent advancements on deepfake techniques. While spectrograms have
demonstrated their capability for anti-spoofing, complementary information
presented in multi-order spectral patterns have not been well explored, which
limits their effectiveness for varying spoofing attacks. Therefore, we propose
a novel deep learning method with a spectral fusion-reconstruction strategy,
namely S2pecNet, to utilise multi-order spectral patterns for robust audio
anti-spoofing representations. Specifically, spectral patterns up to
second-order are fused in a coarse-to-fine manner and two branches are designed
for the fine-level fusion from the spectral and temporal contexts. A
reconstruction from the fused representation to the input spectrograms further
reduces the potential fused information loss. Our method achieved the
state-of-the-art performance with an EER of 0.77% on a widely used dataset:
ASVspoof2019 LA Challenge.
- Abstract(参考訳): 最近のディープフェイク技術の進歩により、ロバストなオーディオアンチスプーフィングはますます困難になっている。
スペクトログラムはアンチスプーフィングの能力を示しているが、マルチオーダーのスペクトルパターンで提示される補完的な情報は十分に研究されておらず、スプーフィング攻撃の効果を制限している。
そこで本研究では,スペクトル融合再構成戦略であるs2pecnetを用いた新しい深層学習法を提案する。
具体的には、2階までのスペクトルパターンを粗い方法で融合させ、スペクトルおよび時間文脈からの微細な融合のために2つの枝を設計する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失をさらに低減する。
ASVspoof2019 LA Challengeでは,EERの0.77%で最先端の性能を達成した。
関連論文リスト
- Deep Spectral Methods for Unsupervised Ultrasound Image Interpretation [53.37499744840018]
本稿では, 超音波を応用した非教師型深層学習手法を提案する。
我々は、スペクトルグラフ理論と深層学習法を組み合わせた教師なしディープスペクトル法から重要な概念を統合する。
スペクトルクラスタリングの自己教師型トランスフォーマー機能を利用して、超音波特有のメトリクスと形状と位置の先行値に基づいて意味のあるセグメントを生成し、データセット間のセマンティック一貫性を確保する。
論文 参考訳(メタデータ) (2024-08-04T14:30:14Z) - SpectralMamba: Efficient Mamba for Hyperspectral Image Classification [39.18999103115206]
リカレントニューラルネットワークとトランスフォーマーは、ハイパースペクトル(HS)イメージングにおけるほとんどの応用を支配している。
我々は、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ新しい状態空間モデルであるSpectralMambaを提案する。
SpectralMambaは、パフォーマンスと効率の両面から、驚くほど有望な勝利を生み出している。
論文 参考訳(メタデータ) (2024-04-12T14:12:03Z) - DMSSN: Distilled Mixed Spectral-Spatial Network for Hyperspectral Salient Object Detection [12.823338405434244]
HSOD(Hyperspectral Salient Object Detection)は,様々な用途において有望である。
特徴抽出過程における高スペクトル画像の特徴的特性(HSI)は,従来は不十分であった。
我々は、MSST(Distilled Spectral-Spatial Transformer)を含むDMSSN(Distilled Mixed Spectral-Spatial Network)を提案する。
この分野でのデータ不足の問題に対処するため、大規模なHSODデータセットHSOD-BITを作成しました。
論文 参考訳(メタデータ) (2024-03-31T14:04:57Z) - Spectrum-driven Mixed-frequency Network for Hyperspectral Salient Object
Detection [14.621504062838731]
スペクトルから2つの異なる周波数成分を抽出することでスペクトル特性を完全に活用する新しい手法を提案する。
Spectral Saliency は有能なオブジェクトの領域を近似し、Spectral Edge は有能なオブジェクトのエッジ情報をキャプチャする。
この二重周波数情報を効果的に活用するために、新しい軽量スペクトラム駆動混合周波数ネットワーク(SMN)を導入する。
論文 参考訳(メタデータ) (2023-12-02T08:05:45Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified
Spoofing Detection [6.713879688002623]
既存のアンチ・スプーフィング法は、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。
現在の統合されたソリューションは、偽造品を検出するのに苦労している。
フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。
論文 参考訳(メタデータ) (2023-09-18T14:54:42Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - MST++: Multi-stage Spectral-wise Transformer for Efficient Spectral
Reconstruction [148.26195175240923]
効率的なスペクトル再構成のためのマルチステージスペクトル変換器(MST++)を提案する。
NTIRE 2022 Spectral Reconstruction Challengeでは、私たちのアプローチが優勝しました。
論文 参考訳(メタデータ) (2022-04-17T02:39:32Z) - AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks [45.2410605401286]
我々は,スコアレベルのアンサンブルを使わずに,幅広い種類のスプーフ攻撃を検出可能な,効率的な単一システムの構築を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトをモデル化した新しい異種重ねグラフアテンション層を提案する。
AASISTという名前の我々のアプローチは、現在の最先端技術よりも20%優れています。
論文 参考訳(メタデータ) (2021-10-04T05:48:25Z) - Multi-Discriminator Sobolev Defense-GAN Against Adversarial Attacks for
End-to-End Speech Systems [78.5097679815944]
本稿では,最先端音声テキストシステムのためのエンドツーエンド攻撃に対する防御手法を提案する。
まず,短時間フーリエ変換を用いた2次元スペクトルを用いた音声信号の表現を行う。
第二に、スペクトログラム部分空間射影演算を用いて安全ベクトルを反復的に発見する。
第3に,ソボレフ積分確率計量で学習した新しいganアーキテクチャを用いて,このような安全なベクトルを持つスペクトログラムを合成する。
論文 参考訳(メタデータ) (2021-03-15T01:11:13Z) - Spectral Analysis Network for Deep Representation Learning and Image
Clustering [53.415803942270685]
本稿ではスペクトル分析に基づく教師なし深層表現学習のための新しいネットワーク構造を提案する。
パッチレベルで画像間の局所的な類似性を識別できるため、閉塞に対してより堅牢である。
クラスタリングに親しみやすい表現を学習し、データサンプル間の深い相関を明らかにすることができる。
論文 参考訳(メタデータ) (2020-09-11T05:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。