論文の概要: AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks
- arxiv url: http://arxiv.org/abs/2110.01200v1
- Date: Mon, 4 Oct 2021 05:48:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-05 15:45:03.516786
- Title: AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks
- Title(参考訳): AASIST:統合スペクトロテングラフアテンションネットワークを用いた音声アンチスプーフィング
- Authors: Jee-weon Jung, Hee-Soo Heo, Hemlata Tak, Hye-jin Shim, Joon Son Chung,
Bong-Jin Lee, Ha-Jin Yu, Nicholas Evans
- Abstract要約: 我々は,スコアレベルのアンサンブルを使わずに,幅広い種類のスプーフ攻撃を検出可能な,効率的な単一システムの構築を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトをモデル化した新しい異種重ねグラフアテンション層を提案する。
AASISTという名前の我々のアプローチは、現在の最先端技術よりも20%優れています。
- 参考スコア(独自算出の注目度): 45.2410605401286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artefacts that differentiate spoofed from bona-fide utterances can reside in
spectral or temporal domains. Their reliable detection usually depends upon
computationally demanding ensemble systems where each subsystem is tuned to
some specific artefacts. We seek to develop an efficient, single system that
can detect a broad range of different spoofing attacks without score-level
ensembles. We propose a novel heterogeneous stacking graph attention layer
which models artefacts spanning heterogeneous temporal and spectral domains
with a heterogeneous attention mechanism and a stack node. With a new max graph
operation that involves a competitive mechanism and an extended readout scheme,
our approach, named AASIST, outperforms the current state-of-the-art by 20%
relative. Even a lightweight variant, AASIST-L, with only 85K parameters,
outperforms all competing systems.
- Abstract(参考訳): ボナフィド発話とスプーフを区別するアーティファクトは、スペクトル領域や時間領域に存在する。
信頼性の高い検出は通常、計算的に要求されるアンサンブルシステムに依存し、各サブシステムは特定のアーチファクトに調整される。
我々は,スコアレベルのアンサンブルを必要とせず,幅広い種類のスプーフィング攻撃を検出できる効率的な単一システムの開発を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトを異種注意機構とスタックノードでモデル化した新しい異種重ねグラフアテンション層を提案する。
競争機構と拡張された読み出しスキームを含む新たな最大グラフ演算により、AASISTと呼ばれる我々のアプローチは、現在の最先端技術よりも20%向上する。
85kのパラメータしか持たない軽量版であるaasist-lでさえ、競合システムよりも優れている。
関連論文リスト
- Exploring Diverse Representations for Open Set Recognition [51.39557024591446]
オープンセット認識(OSR)では、テスト中に未知のサンプルを拒絶しながら、クローズドセットに属するサンプルを分類する必要がある。
現在、生成モデルはOSRの差別モデルよりもよく機能している。
本稿では,多種多様な表現を識別的に学習するMulti-Expert Diverse Attention Fusion(MEDAF)を提案する。
論文 参考訳(メタデータ) (2024-01-12T11:40:22Z) - DiffSpectralNet : Unveiling the Potential of Diffusion Models for
Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。
まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。
この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文 参考訳(メタデータ) (2023-10-29T15:26:37Z) - Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified
Spoofing Detection [6.713879688002623]
既存のアンチ・スプーフィング法は、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。
現在の統合されたソリューションは、偽造品を検出するのに苦労している。
フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。
論文 参考訳(メタデータ) (2023-09-18T14:54:42Z) - Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms [19.514932118278523]
本稿では,S2pecNetというスペクトル融合再構成戦略を用いた新しい深層学習手法を提案する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失がさらに低減される。
提案手法は,広く使用されているデータセット上でのEERの0.77%で最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T04:51:15Z) - Histopathology Whole Slide Image Analysis with Heterogeneous Graph
Representation Learning [78.49090351193269]
本稿では,WSI分析のために,異なる種類の核間の相互関係を利用する新しいグラフベースのフレームワークを提案する。
具体的には、WSI を各ノードに "nucleus-type" 属性と各エッジに類似した意味属性を持つ異種グラフとして定式化する。
我々のフレームワークは、様々なタスクに対してかなりのマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-07-09T14:43:40Z) - Spectral Cross-Domain Neural Network with Soft-adaptive Threshold
Spectral Enhancement [12.837935554250409]
スペクトルクロスドメインニューラルネットワーク(SCDNN)という新しいディープラーニングモデルを提案する。
同時に、ニューラルネットワーク内のスペクトル領域と時間領域に埋め込まれたキー情報を明らかにする。
提案するSCDNNは、パブリックECGデータベースの textitPTB-XL と textitMIT-BIH に実装されたいくつかの分類タスクでテストされる。
論文 参考訳(メタデータ) (2023-01-10T14:23:43Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Deep Autoregressive Models with Spectral Attention [74.08846528440024]
本稿では,深部自己回帰モデルとスペクトル注意(SA)モジュールを組み合わせた予測アーキテクチャを提案する。
時系列の埋め込みをランダムなプロセスの発生としてスペクトル領域に特徴付けることにより,グローバルな傾向と季節パターンを同定することができる。
時系列に対するグローバルとローカルの2つのスペクトルアテンションモデルは、この情報を予測の中に統合し、スペクトルフィルタリングを行い、時系列のノイズを除去する。
論文 参考訳(メタデータ) (2021-07-13T11:08:47Z) - Robust and Interpretable Temporal Convolution Network for Event
Detection in Lung Sound Recordings [37.0780415938284]
肺音事象検出のための軽量で頑健で完全に解釈可能なフレームワークを提案する。
マルチブランチTCNアーキテクチャを使用し、これらのブランチから得られる特徴を組み合わせるために、新しい融合戦略を利用する。
異なる特徴融合戦略を解析した結果,提案手法は非表現的特徴の抑制に繋がることがわかった。
論文 参考訳(メタデータ) (2021-06-30T06:36:22Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。