論文の概要: Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture
- arxiv url: http://arxiv.org/abs/2210.03581v1
- Date: Fri, 7 Oct 2022 14:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 14:44:00.556438
- Title: Synthetic Voice Detection and Audio Splicing Detection using
SE-Res2Net-Conformer Architecture
- Title(参考訳): SE-Res2Net-Conformerアーキテクチャを用いた合成音声検出と音声スプライシング検出
- Authors: Lei Wang, Benedict Yeoh, Jun Wah Ng
- Abstract要約: 本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,スプーフィング対策の性能を向上させることができることがわかった。
本稿では,既存の音声スプライシング検出問題を再定式化することを提案する。
- 参考スコア(独自算出の注目度): 2.9805017559176883
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic voice and splicing audio clips have been generated to spoof
Internet users and artificial intelligence (AI) technologies such as voice
authentication. Existing research work treats spoofing countermeasures as a
binary classification problem: bonafide vs. spoof. This paper extends the
existing Res2Net by involving the recent Conformer block to further exploit the
local patterns on acoustic features. Experimental results on ASVspoof 2019
database show that the proposed SE-Res2Net-Conformer architecture is able to
improve the spoofing countermeasures performance for the logical access
scenario.
In addition, this paper also proposes to re-formulate the existing audio
splicing detection problem. Instead of identifying the complete splicing
segments, it is more useful to detect the boundaries of the spliced segments.
Moreover, a deep learning approach can be used to solve the problem, which is
different from the previous signal processing techniques.
- Abstract(参考訳): 合成音声と音声クリップは、インターネットユーザや音声認証などの人工知能(AI)技術に対して生成されている。
既存の研究は、スプーフ対策を二項分類問題として扱う: bonafide vs. spoof。
本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。
ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,論理アクセスシナリオに対するスプーフィング対策性能を向上させることができることがわかった。
また,本研究では,既存の音声スプライシング検出問題を再構成することを提案する。
完全なスプライシングセグメントを識別する代わりに、スプライシングセグメントの境界を検出することがより有用である。
さらに,従来の信号処理手法とは異なる,深層学習手法を用いてこの問題を解決できる。
関連論文リスト
- Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - NPVForensics: Jointing Non-critical Phonemes and Visemes for Deepfake
Detection [50.33525966541906]
既存のマルチモーダル検出手法は、Deepfakeビデオを公開するために、音声と視覚の不整合をキャプチャする。
NPVForensics と呼ばれる非臨界音素とビセムの相関関係を抽出する新しいディープフェイク検出法を提案する。
我々のモデルは、微調整で下流のDeepfakeデータセットに容易に適応できる。
論文 参考訳(メタデータ) (2023-06-12T06:06:05Z) - ConvNext Based Neural Network for Anti-Spoofing [6.047242590232868]
自動話者認証(ASV)は、実生活においてアイデンティティ認証に広く用いられている。
音声変換, 音声アルゴリズム, 記録装置の品質向上などにより, ASVシステムはスプーフ攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2022-09-14T05:53:37Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Towards Unconstrained Audio Splicing Detection and Localization with Neural Networks [6.570712059945705]
同一人物の様々な音声サンプルを組み合わせることで、拘束フォージェリーを作成することができる。
オーディオスプライシングの既存の検出アルゴリズムは手作りの機能を使用し、特定の仮定を行う。
本研究では,検出とローカライゼーションをスプライシングするTransformer sequence-to-sequence (seq2seq) ネットワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T13:57:16Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Exploiting Cross Domain Acoustic-to-articulatory Inverted Features For
Disordered Speech Recognition [57.15942628305797]
調音機能は音響信号歪みに不変であり、正常音声の自動音声認識システムにうまく組み込まれている。
本稿では,15時間 TORGO コーパスの並列音響・調音データをモデルトレーニングに用いるクロスドメイン音響・調音(A2A)インバージョン手法を提案する。
クロスドメインは102.7時間のUASpeechコーパスに適応し、調音的特徴を生産する。
論文 参考訳(メタデータ) (2022-03-19T08:47:18Z) - Attention Driven Fusion for Multi-Modal Emotion Recognition [39.295892047505816]
本稿では,感情分類のためのテキストと音響データを活用・融合するための深層学習に基づくアプローチを提案する。
我々は、帯域通過フィルタを用いたパラメータ化シンク関数に基づくSincNet層を用いて、生音声から音響特徴を抽出し、DCNNで処理する。
テキスト処理では,N-gramレベルの相関を推定するために,2つの分岐(DCNNとBi-direction RNNとDCNN)を並列に使用する。
論文 参考訳(メタデータ) (2020-09-23T08:07:58Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。