論文の概要: Temporal-Channel Modeling in Multi-head Self-Attention for Synthetic Speech Detection
- arxiv url: http://arxiv.org/abs/2406.17376v1
- Date: Tue, 25 Jun 2024 08:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:01:42.314719
- Title: Temporal-Channel Modeling in Multi-head Self-Attention for Synthetic Speech Detection
- Title(参考訳): 合成音声検出のためのマルチヘッド自己認識における時間チャネルモデリング
- Authors: Duc-Tuan Truong, Ruijie Tao, Tuan Nguyen, Hieu-Thi Luong, Kong Aik Lee, Eng Siong Chng,
- Abstract要約: 本稿では,MHSAの時間チャネル依存性を捉える能力を高めるために,時間チャネルモデリング(TCM)モジュールを提案する。
0.03Mの追加パラメータだけで、TCMモジュールはEERの9.25%で最先端のシステムより優れている。
- 参考スコア(独自算出の注目度): 31.758974740380946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent synthetic speech detectors leveraging the Transformer model have superior performance compared to the convolutional neural network counterparts. This improvement could be due to the powerful modeling ability of the multi-head self-attention (MHSA) in the Transformer model, which learns the temporal relationship of each input token. However, artifacts of synthetic speech can be located in specific regions of both frequency channels and temporal segments, while MHSA neglects this temporal-channel dependency of the input sequence. In this work, we proposed a Temporal-Channel Modeling (TCM) module to enhance MHSA's capability for capturing temporal-channel dependencies. Experimental results on the ASVspoof 2021 show that with only 0.03M additional parameters, the TCM module can outperform the state-of-the-art system by 9.25% in EER. Further ablation study reveals that utilizing both temporal and channel information yields the most improvement for detecting synthetic speech.
- Abstract(参考訳): トランスフォーマーモデルを利用した最近の合成音声検出器は畳み込みニューラルネットワークと比較して優れた性能を示した。
この改善は、入力トークンの時間的関係を学習するTransformerモデルにおけるMHSA(Multi-head Self-attention)の強力なモデリング能力による可能性がある。
しかし、合成音声のアーティファクトは周波数チャネルと時間セグメントの両方の特定の領域に配置することができ、MHSAは入力シーケンスの時間チャネル依存性を無視している。
本研究では,MHSAの時間チャネル依存性を捉える能力を高めるため,時間チャネルモデリング(TCM)モジュールを提案する。
ASVspoof 2021の実験結果によると、0.03Mの追加パラメータだけで、TCMモジュールはEERの9.25%で最先端システムを上回っている。
さらにアブレーション研究により、時間的情報とチャネル的情報の両方を利用することで、合成音声の検出において最大の改善がもたらされることが明らかとなった。
関連論文リスト
- ARLON: Boosting Diffusion Transformers with Autoregressive Models for Long Video Generation [83.62931466231898]
本稿では,長期ビデオ生成のための自己回帰モデルを用いた拡散変換器を高速化するフレームワークARLONを提案する。
潜在ベクトル量子変分オートコーダ(VQ-VAE)は、DiTモデルの入力潜時空間をコンパクトなビジュアルトークンに圧縮する。
適応ノルムベースのセマンティックインジェクションモジュールは、ARモデルから粗い離散視覚ユニットをDiTモデルに統合する。
論文 参考訳(メタデータ) (2024-10-27T16:28:28Z) - Dual-TSST: A Dual-Branch Temporal-Spectral-Spatial Transformer Model for EEG Decoding [2.0721229324537833]
デュアルブランチ時間スペクトル空間変換器(Dual-TSST)を用いた新しいデコードアーキテクチャネットワークを提案する。
提案するDual-TSSTは様々なタスクにおいて優れており,平均精度80.67%の脳波分類性能が期待できる。
本研究は,高性能脳波デコーディングへの新たなアプローチを提供するとともに,将来のCNN-Transformerベースのアプリケーションにも大きな可能性を秘めている。
論文 参考訳(メタデータ) (2024-09-05T05:08:43Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z) - An ML-assisted OTFS vs. OFDM adaptable modem [1.8492669447784602]
OTFSおよびOFDM波形は、レガシーアーキテクチャの再利用、レシーバ設計の単純さ、低複雑さ検出の利点を享受する。
本稿では,送信機におけるOTFSまたはOFDM信号処理チェーンと受信機とを切り替えて,平均二乗誤差(MSE)性能を最適化するディープニューラルネットワーク(DNN)に基づく適応方式を提案する。
論文 参考訳(メタデータ) (2023-09-04T02:33:44Z) - Joint Channel Estimation and Feedback with Masked Token Transformers in
Massive MIMO Systems [74.52117784544758]
本稿では,CSI行列内の固有周波数領域相関を明らかにするエンコーダデコーダに基づくネットワークを提案する。
エンコーダ・デコーダネットワーク全体がチャネル圧縮に使用される。
提案手法は,共同作業における現状のチャネル推定およびフィードバック技術より優れる。
論文 参考訳(メタデータ) (2023-06-08T06:15:17Z) - Multi-Frequency Information Enhanced Channel Attention Module for
Speaker Representation Learning [41.44950556040058]
本稿では,多周波情報を活用し,新しい2つの注目モジュールを設計することを提案する。
提案したアテンションモジュールは、DCTに基づいて、複数の周波数成分からより多くの話者情報を効果的に取得することができる。
実験の結果,提案するSFSCおよびMFSCアテンションモジュールは,より識別性の高い話者表現を効率的に生成できることがわかった。
論文 参考訳(メタデータ) (2022-07-10T21:19:36Z) - FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech
Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。
FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。
我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文 参考訳(メタデータ) (2022-04-21T07:49:09Z) - TMS: A Temporal Multi-scale Backbone Design for Speaker Embedding [60.292702363839716]
話者埋め込みのための現在のSOTAバックボーンネットワークは、話者表現のためのマルチブランチネットワークアーキテクチャを用いた発話からマルチスケール特徴を集約するように設計されている。
本稿では, 話者埋め込みネットワークにおいて, 計算コストの増大を伴わずに, マルチスケール分岐を効率的に設計できる効果的な時間的マルチスケール(TMS)モデルを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:49:35Z) - Learn to cycle: Time-consistent feature discovery for action recognition [83.43682368129072]
時間的変動を一般化することは、ビデオにおける効果的な行動認識の前提条件である。
Squeeze Re Temporal Gates (SRTG) を導入する。
SRTPGブロックを使用する場合,GFLOの数は最小限に抑えられ,一貫した改善が見られた。
論文 参考訳(メタデータ) (2020-06-15T09:36:28Z) - Fast and Accurate Optical Fiber Channel Modeling Using Generative
Adversarial Network [2.8821682752466975]
ファイバチャネル伝達関数の分布を学習するために, GAN(Generative Adversarial Network)について検討した。
GANは、異なる光打ち上げ能力、変調フォーマット、入力信号分布の下で堅牢な一般化能力を示す。
論文 参考訳(メタデータ) (2020-02-28T10:54:27Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。