論文の概要: Fully Automated End-to-End Fake Audio Detection
- arxiv url: http://arxiv.org/abs/2208.09618v1
- Date: Sat, 20 Aug 2022 06:46:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:16:53.329145
- Title: Fully Automated End-to-End Fake Audio Detection
- Title(参考訳): 完全自動エンド・ツー・エンドフェイク音声検出
- Authors: Chenglong Wang, Jiangyan Yi, Jianhua Tao, Haiyang Sun, Xun Chen,
Zhengkun Tian, Haoxin Ma, Cunhang Fan, Ruibo Fu
- Abstract要約: 本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
- 参考スコア(独自算出の注目度): 57.78459588263812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing fake audio detection systems often rely on expert experience to
design the acoustic features or manually design the hyperparameters of the
network structure. However, artificial adjustment of the parameters can have a
relatively obvious influence on the results. It is almost impossible to
manually set the best set of parameters. Therefore this paper proposes a fully
automated end-toend fake audio detection method. We first use wav2vec
pre-trained model to obtain a high-level representation of the speech.
Furthermore, for the network structure, we use a modified version of the
differentiable architecture search (DARTS) named light-DARTS. It learns deep
speech representations while automatically learning and optimizing complex
neural structures consisting of convolutional operations and residual blocks.
The experimental results on the ASVspoof 2019 LA dataset show that our proposed
system achieves an equal error rate (EER) of 1.08%, which outperforms the
state-of-the-art single system.
- Abstract(参考訳): 既存の偽音声検出システムは、しばしば、音響的特徴を設計したり、ネットワーク構造のハイパーパラメータを手動で設計する専門家の経験に依存している。
しかし、パラメータの人工的な調整は、結果に比較的明らかな影響を及ぼす。
最適なパラメータセットを手動で設定することはほとんど不可能です。
そこで本研究では,完全自動エンドツーエンド音声検出手法を提案する。
まずwav2vec事前学習モデルを用いて音声の高レベル表現を得る。
さらに,ネットワーク構造に対しては,Light-DARTS という異種アーキテクチャ検索 (DARTS) の修正版を用いる。
畳み込み操作と残差ブロックからなる複雑な神経構造を自動学習し最適化しながら、深い音声表現を学習する。
ASVspoof 2019 LAデータセットの実験結果から,提案システムは1.08%の誤差率(EER)を達成し,最先端の単一システムを上回る結果を得た。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Robust Wake-Up Word Detection by Two-stage Multi-resolution Ensembles [48.208214762257136]
オーディオストリームのリアルタイム処理のための軽量オンデバイスモデルと、サーバ側の検証モデルである。
プライバシーを保護するため、オーディオ機能は生のオーディオではなくクラウドに送られる。
論文 参考訳(メタデータ) (2023-10-17T16:22:18Z) - Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。