論文の概要: Deep Spectro-temporal Artifacts for Detecting Synthesized Speech
- arxiv url: http://arxiv.org/abs/2210.05254v1
- Date: Tue, 11 Oct 2022 08:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:33:34.132024
- Title: Deep Spectro-temporal Artifacts for Detecting Synthesized Speech
- Title(参考訳): 合成音声検出のためのDeep Spectro-temporal Artifacts
- Authors: Xiaohui Liu, Meng Liu, Lin Zhang, Linjuan Zhang, Chang Zeng, Kai Li,
Nan Li, Kong Aik Lee, Longbiao Wang, Jianwu Dang
- Abstract要約: 本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
- 参考スコア(独自算出の注目度): 57.42110898920759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Audio Deep Synthesis Detection (ADD) Challenge has been held to detect
generated human-like speech. With our submitted system, this paper provides an
overall assessment of track 1 (Low-quality Fake Audio Detection) and track 2
(Partially Fake Audio Detection). In this paper, spectro-temporal artifacts
were detected using raw temporal signals, spectral features, as well as deep
embedding features. To address track 1, low-quality data augmentation, domain
adaptation via finetuning, and various complementary feature information fusion
were aggregated in our system. Furthermore, we analyzed the clustering
characteristics of subsystems with different features by visualization method
and explained the effectiveness of our proposed greedy fusion strategy. As for
track 2, frame transition and smoothing were detected using self-supervised
learning structure to capture the manipulation of PF attacks in the time
domain. We ranked 4th and 5th in track 1 and track 2, respectively.
- Abstract(参考訳): 音声深層合成検出(ADD)チャレンジが開催され、生成された人間のような音声を検出する。
本稿では,提案システムを用いてトラック1(低品質のフェイクオーディオ検出)とトラック2(一部フェイクオーディオ検出)の総合評価を行う。
本稿では, 時間的信号, スペクトル特徴, 奥行き埋め込み特徴を用いて, 分光時間的アーティファクトの検出を行った。
トラック1では,低品質データ拡張,ファインタニングによるドメイン適応,および様々な補完的特徴情報融合が集積された。
さらに,異なる特徴を持つサブシステムのクラスタリング特性を可視化法により解析し,提案手法の有効性について検討した。
トラック2では,自己教師あり学習構造を用いてフレーム遷移と平滑化を検出し,時間領域におけるpf攻撃の操作を捉えた。
トラック1とトラック2でそれぞれ4位と5位にランクインした。
関連論文リスト
- Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Combining Automatic Speaker Verification and Prosody Analysis for
Synthetic Speech Detection [15.884911752869437]
本稿では,人間の声の2つの高レベルな意味的特性を組み合わせた合成音声検出手法を提案する。
一方, 話者識別手法に着目し, 自動話者検証タスクの最先端手法を用いて抽出した話者埋め込みとして表現する。
一方、リズム、ピッチ、アクセントの変化を意図した音声韻律は、特殊なエンコーダによって抽出される。
論文 参考訳(メタデータ) (2022-10-31T11:03:03Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。