論文の概要: RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform
- arxiv url: http://arxiv.org/abs/2108.05684v1
- Date: Thu, 12 Aug 2021 12:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:21:12.348250
- Title: RW-Resnet: A Novel Speech Anti-Spoofing Model Using Raw Waveform
- Title(参考訳): RW-Resnet:生波形を用いた新しい音声アンチスプーフィングモデル
- Authors: Youxuan Ma, Zongze Ren, Shugong Xu
- Abstract要約: 本稿ではResWavegram-Resnetという新しい音声合成モデルを提案する。
RW-Resnetは他の最先端のアンチスプーフィングモデルよりも優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 12.75508520935682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, synthetic speech generated by advanced text-to-speech (TTS)
and voice conversion (VC) systems has caused great harms to automatic speaker
verification (ASV) systems, urging us to design a synthetic speech detection
system to protect ASV systems. In this paper, we propose a new speech
anti-spoofing model named ResWavegram-Resnet (RW-Resnet). The model contains
two parts, Conv1D Resblocks and backbone Resnet34. The Conv1D Resblock is based
on the Conv1D block with a residual connection. For the first part, we use the
raw waveform as input and feed it to the stacked Conv1D Resblocks to get the
ResWavegram. Compared with traditional methods, ResWavegram keeps all the
information from the audio signal and has a stronger ability in extracting
features. For the second part, the extracted features are fed to the backbone
Resnet34 for the spoofed or bonafide decision. The ASVspoof2019 logical access
(LA) corpus is used to evaluate our proposed RW-Resnet. Experimental results
show that the RW-Resnet achieves better performance than other state-of-the-art
anti-spoofing models, which illustrates its effectiveness in detecting
synthetic speech attacks.
- Abstract(参考訳): 近年,TTS(Advanced Text-to-Speech)システムとVC(Voice conversion)システムによって生成される合成音声は,自動話者検証(ASV)システムに大きな打撃を与え,ASVシステムを保護するための合成音声検出システムの設計を促している。
本稿では,ResWavegram-Resnet(RW-Resnet)という新しい音声合成モデルを提案する。
モデルにはConv1D ResblocksとBackbone Resnet34という2つの部分が含まれている。
Conv1D Resblockは残コネクションを持つConv1Dブロックに基づいている。
まず最初に、生波形を入力として使用し、それを積み重ねたConv1D Resblocksに供給してResWavegramを得る。
従来の手法と比較して、ResWavegramは音声信号から全ての情報を保存し、特徴を抽出する能力が強い。
第2部では、抽出された特徴をspoofed又はbonafide決定のためにbackbone resnet34に供給する。
ASVspoof2019 論理アクセス (LA) コーパスを用いて提案した RW-Resnet の評価を行った。
実験の結果、RW-Resnetは他の最先端のアンチスプーフィングモデルよりも優れた性能を示し、合成音声攻撃の検出の有効性を示した。
関連論文リスト
- Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture [2.9805017559176883]
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
論文 参考訳(メタデータ) (2022-10-07T14:30:13Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Anti-Spoofing Using Transfer Learning with Variational Information
Bottleneck [6.918364447822298]
本稿では,音声のアンチ・スプーフィングタスクのための変動情報ボトルネックを持つwav2vec 2.0事前学習モデルに基づく伝達学習手法を提案する。
提案手法は,現在最先端のアンチ・スプーフィングシステムよりも優れており,未知のスプーフィングと真正の音声を区別する性能を向上させる。
論文 参考訳(メタデータ) (2022-04-04T11:08:21Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Spotting adversarial samples for speaker verification by neural vocoders [102.1486475058963]
我々は、自動話者検証(ASV)のための敵対サンプルを見つけるために、ニューラルボコーダを採用する。
元の音声と再合成音声のASVスコアの違いは、真正と逆正のサンプルの識別に良い指標であることがわかった。
私たちのコードは、将来的な比較作業のためにオープンソースにされます。
論文 参考訳(メタデータ) (2021-07-01T08:58:16Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Replay and Synthetic Speech Detection with Res2net Architecture [85.20912636149552]
既存のリプレイと合成音声検出のアプローチは、スプーフィング攻撃に対する一般化性に欠けていた。
本研究では、Res2Netと呼ばれる新しいモデル構造を活用して、アンチスプーフィング対策の一般化性を改善することを提案する。
論文 参考訳(メタデータ) (2020-10-28T14:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。