論文の概要: Complex-valued neural networks for voice anti-spoofing
- arxiv url: http://arxiv.org/abs/2308.11800v1
- Date: Tue, 22 Aug 2023 21:49:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:38:00.948500
- Title: Complex-valued neural networks for voice anti-spoofing
- Title(参考訳): 音声アンチスプーフィングのための複雑評価ニューラルネットワーク
- Authors: Nicolas M. M\"uller, Philip Sperl, Konstantin B\"ottinger
- Abstract要約: 現在のアンチスプーフィングおよびオーディオディープフェイク検出システムは、CQTやメルスペクトログラムのような等級スペクトルベースの特徴または畳み込みやシンク層によって処理される生オーディオを使用する。
本稿では,複雑な数値ニューラルネットワークを用いて入力音声を処理することにより,両手法の利点を組み合わせた新しい手法を提案する。
その結果、この手法は"In-the-Wild"アンチスプーフィングデータセットの従来の手法よりも優れており、説明可能なAIによる結果の解釈を可能にしていることがわかった。
- 参考スコア(独自算出の注目度): 1.1510009152620668
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current anti-spoofing and audio deepfake detection systems use either
magnitude spectrogram-based features (such as CQT or Melspectrograms) or raw
audio processed through convolution or sinc-layers. Both methods have
drawbacks: magnitude spectrograms discard phase information, which affects
audio naturalness, and raw-feature-based models cannot use traditional
explainable AI methods. This paper proposes a new approach that combines the
benefits of both methods by using complex-valued neural networks to process the
complex-valued, CQT frequency-domain representation of the input audio. This
method retains phase information and allows for explainable AI methods. Results
show that this approach outperforms previous methods on the "In-the-Wild"
anti-spoofing dataset and enables interpretation of the results through
explainable AI. Ablation studies confirm that the model has learned to use
phase information to detect voice spoofing.
- Abstract(参考訳): 現在のアンチスプーフィングおよびオーディオディープフェイク検出システムは、CQTやメルスペクトログラムのような等級スペクトルベースの特徴または畳み込みやシンク層によって処理される生オーディオを使用する。
マグニチュードスペクトログラムは音声の自然性に影響を与える位相情報を破棄し、生の機能ベースのモデルは従来の説明可能なaiメソッドを使用しない。
本稿では、複素数値ニューラルネットワークを用いて入力音声のCQT周波数領域表現を処理することにより、両手法の利点を組み合わせた新しい手法を提案する。
この方法は相情報を保持し、説明可能なAI手法を可能にする。
その結果、この手法は"In-the-Wild"アンチスプーフィングデータセットの従来の手法よりも優れており、説明可能なAIによる結果の解釈を可能にする。
アブレーション研究は、このモデルが位相情報を用いて発声を検出することを学習したことを確認した。
関連論文リスト
- Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Histogram Layer Time Delay Neural Networks for Passive Sonar
Classification [58.720142291102135]
時間遅延ニューラルネットワークとヒストグラム層を組み合わせた新しい手法により,特徴学習の改善と水中音響目標分類を実現する。
提案手法はベースラインモデルより優れており,受動的ソナー目標認識のための統計的文脈を取り入れた有効性を示す。
論文 参考訳(メタデータ) (2023-07-25T19:47:26Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Neural ODEs with Irregular and Noisy Data [8.349349605334316]
ノイズや不規則なサンプル測定を用いて微分方程式を学習する手法について議論する。
我々の方法論では、ディープニューラルネットワークとニューラル常微分方程式(ODE)アプローチの統合において、大きな革新が見られる。
ベクトル場を記述するモデルを学習するためのフレームワークは,雑音測定において非常に効果的である。
論文 参考訳(メタデータ) (2022-05-19T11:24:41Z) - Visualizing Classifier Adjacency Relations: A Case Study in Speaker
Verification and Voice Anti-Spoofing [72.4445825335561]
任意のバイナリ分類器によって生成される検出スコアから2次元表現を導出する簡単な方法を提案する。
ランク相関に基づいて,任意のスコアを用いた分類器の視覚的比較を容易にする。
提案手法は完全に汎用的であり,任意の検出タスクに適用可能だが,自動話者検証と音声アンチスプーフィングシステムによるスコアを用いた手法を実証する。
論文 参考訳(メタデータ) (2021-06-11T13:03:33Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - StutterNet: Stuttering Detection Using Time Delay Neural Network [9.726119468893721]
本稿では,新しい深層学習に基づく発話検出システムstutternetについて述べる。
我々は、分散発話の文脈的側面を捉えるのに適した時間遅延ニューラルネットワーク(TDNN)を用いる。
提案手法は,有望な結果を達成し,最先端の残差ニューラルネットワーク法より優れる。
論文 参考訳(メタデータ) (2021-05-12T11:36:01Z) - Anomalous Sound Detection with Machine Learning: A Systematic Review [0.0]
本稿では,機械学習(ML)技術を用いたアナモルス音検出に関する研究に関するシステムレビュー(SR)について述べる。
技術の現状は、データセットの収集、音声の特徴抽出方法、mlモデル、およびasdに使用される評価方法によって解決された。
論文 参考訳(メタデータ) (2021-02-15T19:57:03Z) - Data-Driven Symbol Detection via Model-Based Machine Learning [117.58188185409904]
機械学習(ML)とモデルベースアルゴリズムを組み合わせた,検出設計のシンボル化を目的とした,データ駆動型フレームワークについてレビューする。
このハイブリッドアプローチでは、よく知られたチャネルモデルに基づくアルゴリズムをMLベースのアルゴリズムで拡張し、チャネルモデル依存性を除去する。
提案手法は, 正確なチャネル入出力統計関係を知らなくても, モデルベースアルゴリズムのほぼ最適性能が得られることを示す。
論文 参考訳(メタデータ) (2020-02-14T06:58:27Z) - AudioMNIST: Exploring Explainable Artificial Intelligence for Audio
Analysis on a Simple Benchmark [12.034688724153044]
本稿では,音声領域におけるディープニューラルネットワークの時間後説明について検討する。
本稿では,3万個の英単語の音声サンプルからなるオープンソース音声データセットを提案する。
人間のユーザ研究において、視覚的説明よりも可聴説明の方が優れた解釈可能性を示す。
論文 参考訳(メタデータ) (2018-07-09T23:11:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。