論文の概要: Replay and Synthetic Speech Detection with Res2net Architecture
- arxiv url: http://arxiv.org/abs/2010.15006v3
- Date: Sat, 13 Feb 2021 16:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 05:57:09.312090
- Title: Replay and Synthetic Speech Detection with Res2net Architecture
- Title(参考訳): Res2netアーキテクチャによる再生合成音声検出
- Authors: Xu Li, Na Li, Chao Weng, Xunying Liu, Dan Su, Dong Yu, Helen Meng
- Abstract要約: 既存のリプレイと合成音声検出のアプローチは、スプーフィング攻撃に対する一般化性に欠けていた。
本研究では、Res2Netと呼ばれる新しいモデル構造を活用して、アンチスプーフィング対策の一般化性を改善することを提案する。
- 参考スコア(独自算出の注目度): 85.20912636149552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing approaches for replay and synthetic speech detection still lack
generalizability to unseen spoofing attacks. This work proposes to leverage a
novel model structure, so-called Res2Net, to improve the anti-spoofing
countermeasure's generalizability. Res2Net mainly modifies the ResNet block to
enable multiple feature scales. Specifically, it splits the feature maps within
one block into multiple channel groups and designs a residual-like connection
across different channel groups. Such connection increases the possible
receptive fields, resulting in multiple feature scales. This multiple scaling
mechanism significantly improves the countermeasure's generalizability to
unseen spoofing attacks. It also decreases the model size compared to
ResNet-based models. Experimental results show that the Res2Net model
consistently outperforms ResNet34 and ResNet50 by a large margin in both
physical access (PA) and logical access (LA) of the ASVspoof 2019 corpus.
Moreover, integration with the squeeze-and-excitation (SE) block can further
enhance performance. For feature engineering, we investigate the
generalizability of Res2Net combined with different acoustic features, and
observe that the constant-Q transform (CQT) achieves the most promising
performance in both PA and LA scenarios. Our best single system outperforms
other state-of-the-art single systems in both PA and LA of the ASVspoof 2019
corpus.
- Abstract(参考訳): リプレイと合成音声検出の既存のアプローチは、いまだにスプーフィング攻撃の一般化を欠いている。
本研究は,新たなモデル構造であるres2netを活用して,防汚対策の汎用性を向上させることを提案する。
Res2Netは主にResNetブロックを変更し、複数の機能スケールを有効にする。
具体的には、1つのブロック内のフィーチャーマップを複数のチャネルグループに分割し、異なるチャネルグループにまたがる残留的な接続を設計する。
このような接続は、可能な受容フィールドを増加させ、複数の機能スケールをもたらす。
この多重スケーリング機構は、スプーフィング攻撃に対する対策の一般化性を著しく改善する。
また、ResNetベースのモデルに比べてモデルサイズも小さくなる。
実験の結果、Res2Netモデルは、ASVspoof 2019コーパスの物理アクセス(PA)と論理アクセス(LA)の両方において、ResNet34とResNet50を一貫して上回っていることがわかった。
さらに、圧縮励起(SE)ブロックとの統合により、さらなる性能向上が可能となる。
特徴工学において,Res2Netと異なる音響特性を組み合わせた一般化可能性について検討し,定数Q変換(CQT)がPAおよびLAのシナリオにおいて最も有望な性能を達成することを観察する。
私たちの最高のシングルシステムは、ASVspoof 2019コーパスのPAとLAにおいて、最先端のシステムよりも優れています。
関連論文リスト
- On the Adversarial Transferability of Generalized "Skip Connections" [83.71752155227888]
スキップ接続は、より深く、より強力な現代のディープモデルにとって重要な要素である。
バックプロパゲーションにおいて、バックプロパゲーション中に、スキップ接続からより多くの勾配を用いることで、高い転送性を持つ逆例を作成できることが分かる。
本稿では,ResNet,Transformer,Inceptions,Neural Architecture Search,Large Language Modelsなど,さまざまなモデルに対する包括的なトランスファー攻撃を行う。
論文 参考訳(メタデータ) (2024-10-11T16:17:47Z) - Dynamic Pre-training: Towards Efficient and Scalable All-in-One Image Restoration [100.54419875604721]
オールインワン画像復元は、各分解に対してタスク固有の非ジェネリックモデルを持たずに、統一されたモデルで異なるタイプの劣化に対処する。
我々は、オールインワン画像復元タスクのためのエンコーダデコーダ方式で設計されたネットワークの動的ファミリであるDyNetを提案する。
我々のDyNetは、よりバルク化と軽量化をシームレスに切り替えることができるので、効率的なモデルデプロイメントのための柔軟性を提供します。
論文 参考訳(メタデータ) (2024-04-02T17:58:49Z) - Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture [2.9805017559176883]
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
論文 参考訳(メタデータ) (2022-10-07T14:30:13Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - RMNet: Equivalently Removing Residual Connection from Networks [15.32653042487324]
本稿では,ResBlock上でのRM(Reserving and merging)操作により,バニラResNetの残コネクションを等価に除去することを提案する。
プラグイン方式として, RMオペレーションには, 1 つの利点がある: 1 つの実装により, 高比ネットワークプルーニングに自然に対応でき, 2) RepVGG の深さ制限を破り, 3) ResNet や RepVGG よりも精度の高いトレードオフネットワーク (RMNet) を実現する。
論文 参考訳(メタデータ) (2021-11-01T04:07:45Z) - Channel-wise Gated Res2Net: Towards Robust Detection of Synthetic Speech
Attacks [67.7648985513978]
自動話者検証(ASV)における既存のアンチスプーフィングのアプローチは、未確認攻撃に対する一般化性に欠ける。
本稿では,チャネルワイズゲーティング機構を実現するためにRes2Netを改良した新しいCG-Res2Netを提案する。
論文 参考訳(メタデータ) (2021-07-19T12:27:40Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - BiO-Net: Learning Recurrent Bi-directional Connections for
Encoder-Decoder Architecture [82.64881585566825]
本稿では,新たな双方向O字型ネットワーク(BiO-Net)を提案する。
提案手法は,バニラU-Netおよび他の最先端手法よりも優れる。
論文 参考訳(メタデータ) (2020-07-01T05:07:49Z) - Multi-Task Siamese Neural Network for Improving Replay Attack Detection [13.379530865598408]
Residual Neural Networks(ResNet)上に構築されたリプレイ攻撃検出システムは、公開ベンチマークであるASVspoof 2019 Physical Access Challengeで驚くべき結果を得た。
マルチタスク学習環境における識別的特徴学習がRA検出システムの一般化性と識別性に及ぼす影響を解析する。
論文 参考訳(メタデータ) (2020-02-16T00:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。