論文の概要: Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features
- arxiv url: http://arxiv.org/abs/2208.01214v1
- Date: Tue, 2 Aug 2022 02:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:49:39.358731
- Title: Audio Deepfake Detection Based on a Combination of F0 Information and
Real Plus Imaginary Spectrogram Features
- Title(参考訳): F0情報とReal Plus Imaginary Spectrogram特徴を組み合わせたオーディオディープフェイク検出
- Authors: Jun Xue, Cunhang Fan, Zhao Lv, Jianhua Tao, Jiangyan Yi, Chengshi
Zheng, Zhengqi Wen, Minmin Yuan, Shegang Shao
- Abstract要約: ASVspoof 2019 LAデータセットの実験結果から,提案手法はオーディオディープフェイク検出に非常に有効であることがわかった。
提案方式は音声深度検出作業に非常に有効であり,ほぼ全てのシステムにまたがる等価誤差率(EER)が0.43%に達する。
- 参考スコア(独自算出の注目度): 51.924340387119415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, pioneer research works have proposed a large number of acoustic
features (log power spectrogram, linear frequency cepstral coefficients,
constant Q cepstral coefficients, etc.) for audio deepfake detection, obtaining
good performance, and showing that different subbands have different
contributions to audio deepfake detection. However, this lacks an explanation
of the specific information in the subband, and these features also lose
information such as phase. Inspired by the mechanism of synthetic speech, the
fundamental frequency (F0) information is used to improve the quality of
synthetic speech, while the F0 of synthetic speech is still too average, which
differs significantly from that of real speech. It is expected that F0 can be
used as important information to discriminate between bonafide and fake speech,
while this information cannot be used directly due to the irregular
distribution of F0. Insteadly, the frequency band containing most of F0 is
selected as the input feature. Meanwhile, to make full use of the phase and
full-band information, we also propose to use real and imaginary spectrogram
features as complementary input features and model the disjoint subbands
separately. Finally, the results of F0, real and imaginary spectrogram features
are fused. Experimental results on the ASVspoof 2019 LA dataset show that our
proposed system is very effective for the audio deepfake detection task,
achieving an equivalent error rate (EER) of 0.43%, which surpasses almost all
systems.
- Abstract(参考訳): 近年,オーディオディープフェイク検出のための多数の音響特性(log Power Spectrogram, linear frequency cepstral coefficients, constant Q cepstral coefficientsなど)を提案し,優れた性能を示し,様々なサブバンドがオーディオディープフェイク検出に異なる貢献をしていることを示した。
しかし、これはサブバンド内の特定の情報の説明に欠けており、これらの特徴は位相などの情報も失っている。
合成音声のメカニズムにインスパイアされた基本周波数(F0)情報は、合成音声の品質を向上させるために使用され、合成音声のF0は、実際の音声とは大きく異なる、まだ平均的すぎる。
f0はボナフィドと偽音声の区別に重要な情報として用いられることが期待されているが、この情報はf0の不規則分布のため直接使用できない。
代わりに、F0の大部分を含む周波数帯域を入力特徴として選択する。
一方,位相情報と全帯域情報をフル活用するために,相補的な入力特徴として実・仮想スペクトログラム機能を使用し,分離したサブバンドをモデル化することを提案する。
最後に、F0、実像および虚像の分光分析結果が融合される。
ASVspoof 2019 LAデータセットによる実験結果から,提案システムはオーディオディープフェイク検出タスクに極めて有効であり,ほぼすべてのシステムを超える等価エラー率(EER)が0.43%に達することが示された。
関連論文リスト
- SiFiSinger: A High-Fidelity End-to-End Singing Voice Synthesizer based on Source-filter Model [31.280358048556444]
本稿では,音源フィルタ機構に基づくSVS(Advanced End-to-end Song Voice Synsynse)システムを提案する。
提案システムは、基本ピッチ(F0)予測器や波形生成デコーダなどの要素も組み込んでいる。
Opencpopデータセットの実験により,提案モデルの有効性が実証された。
論文 参考訳(メタデータ) (2024-10-16T13:18:45Z) - Statistics-aware Audio-visual Deepfake Detector [11.671275975119089]
オーディオ・ヴィジュアルフェイク検出の手法は、主に音声と視覚の特徴の同期を評価する。
モデルの識別能力を高めるため,統計的特徴損失を提案する。
DFDCおよびFakeAVCelebデータセットの実験により,提案手法の妥当性が示された。
論文 参考訳(メタデータ) (2024-07-16T12:15:41Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Comparative Analysis of the wav2vec 2.0 Feature Extractor [42.18541127866435]
本研究では,コネクショニスト時間分類(CTC)ASRモデルにおいて,標準的な特徴抽出手法を置き換える能力について検討する。
LibriSpeechベンチマークでは従来のFEと競合し、個々のコンポーネントの影響を分析する。
論文 参考訳(メタデータ) (2023-08-08T14:29:35Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Adaptive re-calibration of channel-wise features for Adversarial Audio
Classification [0.0]
合成音声検出のための注意特徴融合を用いた特徴量の再検討を提案する。
本研究では,End2EndモデルやResnetベースモデルなど,さまざまな検出手法との比較を行った。
また,線形周波数ケプストラム係数 (LFCC) とメル周波数ケプストラム係数 (MFCC) の組み合わせにより,より優れた入力特徴表現が得られることを示した。
論文 参考訳(メタデータ) (2022-10-21T04:21:56Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。
まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。
ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文 参考訳(メタデータ) (2022-08-20T06:46:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。