論文の概要: Deep Spectro-temporal Artifacts for Detecting Synthesized Speech
- arxiv url: http://arxiv.org/abs/2210.05254v1
- Date: Tue, 11 Oct 2022 08:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 17:33:34.132024
- Title: Deep Spectro-temporal Artifacts for Detecting Synthesized Speech
- Title(参考訳): 合成音声検出のためのDeep Spectro-temporal Artifacts
- Authors: Xiaohui Liu, Meng Liu, Lin Zhang, Linjuan Zhang, Chang Zeng, Kai Li,
Nan Li, Kong Aik Lee, Longbiao Wang, Jianwu Dang
- Abstract要約: 本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
- 参考スコア(独自算出の注目度): 57.42110898920759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Audio Deep Synthesis Detection (ADD) Challenge has been held to detect
generated human-like speech. With our submitted system, this paper provides an
overall assessment of track 1 (Low-quality Fake Audio Detection) and track 2
(Partially Fake Audio Detection). In this paper, spectro-temporal artifacts
were detected using raw temporal signals, spectral features, as well as deep
embedding features. To address track 1, low-quality data augmentation, domain
adaptation via finetuning, and various complementary feature information fusion
were aggregated in our system. Furthermore, we analyzed the clustering
characteristics of subsystems with different features by visualization method
and explained the effectiveness of our proposed greedy fusion strategy. As for
track 2, frame transition and smoothing were detected using self-supervised
learning structure to capture the manipulation of PF attacks in the time
domain. We ranked 4th and 5th in track 1 and track 2, respectively.
- Abstract(参考訳): 音声深層合成検出(ADD)チャレンジが開催され、生成された人間のような音声を検出する。
本稿では,提案システムを用いてトラック1(低品質のフェイクオーディオ検出)とトラック2(一部フェイクオーディオ検出)の総合評価を行う。
本稿では, 時間的信号, スペクトル特徴, 奥行き埋め込み特徴を用いて, 分光時間的アーティファクトの検出を行った。
トラック1では,低品質データ拡張,ファインタニングによるドメイン適応,および様々な補完的特徴情報融合が集積された。
さらに,異なる特徴を持つサブシステムのクラスタリング特性を可視化法により解析し,提案手法の有効性について検討した。
トラック2では,自己教師あり学習構造を用いてフレーム遷移と平滑化を検出し,時間領域におけるpf攻撃の操作を捉えた。
トラック1とトラック2でそれぞれ4位と5位にランクインした。
関連論文リスト
- Detecting Audio-Visual Deepfakes with Fine-Grained Inconsistencies [11.671275975119089]
空間領域と時間領域の両方において微妙なアーティファクトを検出するためのきめ細かいメカニズムを提案する。
まず,音声との不整合が生じやすい小さな空間領域を撮影できる局所視覚モデルを提案する。
第2に、トレーニングセットに微妙な時間的不整合を取り入れたサンプルを含む、時間的に局所的な擬似フェイク増強を導入する。
論文 参考訳(メタデータ) (2024-08-13T09:19:59Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - AUD-TGN: Advancing Action Unit Detection with Temporal Convolution and GPT-2 in Wild Audiovisual Contexts [8.809586885539002]
音声・視覚的マルチモーダルデータを利用した新しい手法を提案する。
本手法は,Mel Frequency Cepstral Coefficients (MFCC) とLog-Mel Spectrogram を,事前学習したVGGishネットワークと共に利用することにより,音声特徴抽出を強化する。
本手法は,データの時間的・文脈的ニュアンスを理解することにより,AU検出の精度を著しく向上させ,複雑なシナリオの理解における重要な進歩を示す。
論文 参考訳(メタデータ) (2024-03-20T15:37:19Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z) - Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features [51.924340387119415]
ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
論文 参考訳(メタデータ) (2022-08-02T02:46:16Z) - Generalizing Face Forgery Detection with High-frequency Features [63.33397573649408]
現在のCNNベースの検出器は、メソッド固有の色テクスチャに過度に適合するため、一般化に失敗する傾向にある。
フェースフォージェリ検出に高周波雑音を用いることを提案する。
1つは、複数のスケールで高周波ノイズを抽出するマルチスケールの高周波特徴抽出モジュールである。
2つ目は、低レベルRGB特徴抽出器を導く残差誘導空間注意モジュールで、新しい視点からフォージェリートレースにもっと集中する。
論文 参考訳(メタデータ) (2021-03-23T08:19:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。