論文の概要: AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks
- arxiv url: http://arxiv.org/abs/2110.01200v1
- Date: Mon, 4 Oct 2021 05:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-10-05 15:45:03.516786
- Title: AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph
Attention Networks
- Title(参考訳): AASIST:統合スペクトロテングラフアテンションネットワークを用いた音声アンチスプーフィング
- Authors: Jee-weon Jung, Hee-Soo Heo, Hemlata Tak, Hye-jin Shim, Joon Son Chung,
Bong-Jin Lee, Ha-Jin Yu, Nicholas Evans
- Abstract要約: 我々は,スコアレベルのアンサンブルを使わずに,幅広い種類のスプーフ攻撃を検出可能な,効率的な単一システムの構築を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトをモデル化した新しい異種重ねグラフアテンション層を提案する。
AASISTという名前の我々のアプローチは、現在の最先端技術よりも20%優れています。
- 参考スコア(独自算出の注目度): 45.2410605401286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artefacts that differentiate spoofed from bona-fide utterances can reside in
spectral or temporal domains. Their reliable detection usually depends upon
computationally demanding ensemble systems where each subsystem is tuned to
some specific artefacts. We seek to develop an efficient, single system that
can detect a broad range of different spoofing attacks without score-level
ensembles. We propose a novel heterogeneous stacking graph attention layer
which models artefacts spanning heterogeneous temporal and spectral domains
with a heterogeneous attention mechanism and a stack node. With a new max graph
operation that involves a competitive mechanism and an extended readout scheme,
our approach, named AASIST, outperforms the current state-of-the-art by 20%
relative. Even a lightweight variant, AASIST-L, with only 85K parameters,
outperforms all competing systems.
- Abstract(参考訳): ボナフィド発話とスプーフを区別するアーティファクトは、スペクトル領域や時間領域に存在する。
信頼性の高い検出は通常、計算的に要求されるアンサンブルシステムに依存し、各サブシステムは特定のアーチファクトに調整される。
我々は,スコアレベルのアンサンブルを必要とせず,幅広い種類のスプーフィング攻撃を検出できる効率的な単一システムの開発を目指している。
異種時間領域とスペクトル領域にまたがるアーティファクトを異種注意機構とスタックノードでモデル化した新しい異種重ねグラフアテンション層を提案する。
競争機構と拡張された読み出しスキームを含む新たな最大グラフ演算により、AASISTと呼ばれる我々のアプローチは、現在の最先端技術よりも20%向上する。
85kのパラメータしか持たない軽量版であるaasist-lでさえ、競合システムよりも優れている。
関連論文リスト
- Sheaf Graph Neural Networks via PAC-Bayes Spectral Optimization [3.2771631221674333]
グラフニューラルネットワーク(GNN)のオーバースムース化は、異なるノード機能で崩壊を引き起こす。
我々はSGPC(Sheaf GNNs with PAC-Bayes)と呼ばれる新しいスキームを導入する。
我々は,SGPCが未確認ノードに対して信頼区間を提供しながら,最先端のスペクトルおよび層ベースGNNよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T06:39:28Z) - Generate Aligned Anomaly: Region-Guided Few-Shot Anomaly Image-Mask Pair Synthesis for Industrial Inspection [53.137651284042434]
異常検査は製造業において重要な役割を担っているが、異常サンプルの不足は既存の方法の有効性を制限している。
本稿では,GAA (Generate grained Anomaly) を提案する。
GAAは少数のサンプルのみを用いて現実的で多様で意味的に整合した異常を発生させる。
論文 参考訳(メタデータ) (2025-07-13T12:56:59Z) - A Tactical Behaviour Recognition Framework Based on Causal Multimodal Reasoning: A Study on Covert Audio-Video Analysis Combining GAN Structure Enhancement and Phonetic Accent Modelling [3.5516803380598074]
TACTIC-GRAPHSは、スペクトルグラフ理論とマルチモーダルグラフニューラル推論を組み合わせて、戦術ビデオにおけるセマンティック理解と脅威検出を行うシステムである。
このフレームワークは、スペクトル埋め込み、時間的因果エッジモデリング、異種モーダル間の識別経路推論を含む。
TACTIC-AVSとTACTIC-Voiceデータセットの実験は、時間的アライメントにおける89.3%の精度と、完全な脅威連鎖の85%以上の認識を示し、ノード遅延はプラス150ミリ秒以内である。
論文 参考訳(メタデータ) (2025-07-04T15:43:43Z) - Adaptive Branch Specialization in Spectral-Spatial Graph Neural Networks for Certified Robustness [3.2771631221674333]
本稿では,グラフニューラルネットワーク(GNN)の各分岐を明示的に専門化する。
スペクトルネットワークは、l0エッジの摂動に耐え、ホモフィル構造を捉えるように訓練され、空間部分はリンフ摂動とヘテロフィルパターンに抵抗するように設計されている。
文脈対応ゲーティングネットワークは2つの表現を適応的に融合させ、各ノードのノードをより信頼性の高い分岐に動的にルーティングする。
論文 参考訳(メタデータ) (2025-05-13T08:00:16Z) - FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。
本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。
FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文 参考訳(メタデータ) (2025-04-02T22:03:11Z) - Exploring Diverse Representations for Open Set Recognition [51.39557024591446]
オープンセット認識(OSR)では、テスト中に未知のサンプルを拒絶しながら、クローズドセットに属するサンプルを分類する必要がある。
現在、生成モデルはOSRの差別モデルよりもよく機能している。
本稿では,多種多様な表現を識別的に学習するMulti-Expert Diverse Attention Fusion(MEDAF)を提案する。
論文 参考訳(メタデータ) (2024-01-12T11:40:22Z) - DiffSpectralNet : Unveiling the Potential of Diffusion Models for
Hyperspectral Image Classification [6.521187080027966]
我々は拡散と変圧器技術を組み合わせたDiffSpectralNetと呼ばれる新しいネットワークを提案する。
まず,拡散モデルに基づく教師なし学習フレームワークを用いて,高レベル・低レベルのスペクトル空間的特徴を抽出する。
この拡散法はスペクトル空間の特徴を多様かつ有意義に抽出し,HSI分類の改善につながる。
論文 参考訳(メタデータ) (2023-10-29T15:26:37Z) - Frame-to-Utterance Convergence: A Spectra-Temporal Approach for Unified
Spoofing Detection [6.713879688002623]
既存のアンチ・スプーフィング法は、しばしば合成攻撃やリプレイ攻撃のような特定の攻撃タイプをシミュレートする。
現在の統合されたソリューションは、偽造品を検出するのに苦労している。
フレームレベルおよび発話レベル係数を利用したスペクトル時間融合を提案する。
論文 参考訳(メタデータ) (2023-09-18T14:54:42Z) - Robust Audio Anti-Spoofing with Fusion-Reconstruction Learning on
Multi-Order Spectrograms [19.514932118278523]
本稿では,S2pecNetというスペクトル融合再構成戦略を用いた新しい深層学習手法を提案する。
融合表現から入力スペクトログラムへの再構成により、潜在的融合情報損失がさらに低減される。
提案手法は,広く使用されているデータセット上でのEERの0.77%で最先端の性能を達成した。
論文 参考訳(メタデータ) (2023-08-18T04:51:15Z) - Histopathology Whole Slide Image Analysis with Heterogeneous Graph
Representation Learning [78.49090351193269]
本稿では,WSI分析のために,異なる種類の核間の相互関係を利用する新しいグラフベースのフレームワークを提案する。
具体的には、WSI を各ノードに "nucleus-type" 属性と各エッジに類似した意味属性を持つ異種グラフとして定式化する。
我々のフレームワークは、様々なタスクに対してかなりのマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-07-09T14:43:40Z) - Spectral Cross-Domain Neural Network with Soft-adaptive Threshold
Spectral Enhancement [12.837935554250409]
スペクトルクロスドメインニューラルネットワーク(SCDNN)という新しいディープラーニングモデルを提案する。
同時に、ニューラルネットワーク内のスペクトル領域と時間領域に埋め込まれたキー情報を明らかにする。
提案するSCDNNは、パブリックECGデータベースの textitPTB-XL と textitMIT-BIH に実装されたいくつかの分類タスクでテストされる。
論文 参考訳(メタデータ) (2023-01-10T14:23:43Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Deep Autoregressive Models with Spectral Attention [74.08846528440024]
本稿では,深部自己回帰モデルとスペクトル注意(SA)モジュールを組み合わせた予測アーキテクチャを提案する。
時系列の埋め込みをランダムなプロセスの発生としてスペクトル領域に特徴付けることにより,グローバルな傾向と季節パターンを同定することができる。
時系列に対するグローバルとローカルの2つのスペクトルアテンションモデルは、この情報を予測の中に統合し、スペクトルフィルタリングを行い、時系列のノイズを除去する。
論文 参考訳(メタデータ) (2021-07-13T11:08:47Z) - Robust and Interpretable Temporal Convolution Network for Event
Detection in Lung Sound Recordings [37.0780415938284]
肺音事象検出のための軽量で頑健で完全に解釈可能なフレームワークを提案する。
マルチブランチTCNアーキテクチャを使用し、これらのブランチから得られる特徴を組み合わせるために、新しい融合戦略を利用する。
異なる特徴融合戦略を解析した結果,提案手法は非表現的特徴の抑制に繋がることがわかった。
論文 参考訳(メタデータ) (2021-06-30T06:36:22Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。