論文の概要: An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio
- arxiv url: http://arxiv.org/abs/2208.09646v1
- Date: Sat, 20 Aug 2022 09:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:16:39.637048
- Title: An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio
- Title(参考訳): フェイクオーディオのVocoderフィンガープリント検出のための初期検討
- Authors: Xinrui Yan, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Haoxin Ma, Tao
Wang, Shiming Wang, Ruibo Fu
- Abstract要約: 本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 53.134423013599914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many effective attempts have been made for fake audio detection. However,
they can only provide detection results but no countermeasures to curb this
harm. For many related practical applications, what model or algorithm
generated the fake audio also is needed. Therefore, We propose a new problem
for detecting vocoder fingerprints of fake audio. Experiments are conducted on
the datasets synthesized by eight state-of-the-art vocoders. We have
preliminarily explored the features and model architectures. The t-SNE
visualization shows that different vocoders generate distinct vocoder
fingerprints.
- Abstract(参考訳): 偽音声検出には多くの効果的な試みがなされている。
しかし、検出結果しか提供できないが、この害を抑える対策はない。
多くの関連応用において、偽音声を生成するモデルやアルゴリズムも必要である。
そこで本研究では,偽音声のボコーダ指紋を検出する新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
機能とモデルアーキテクチャを事前に検討しました。
t-sneの可視化は、異なるvocoderが異なるvocoderの指紋を生成することを示している。
関連論文リスト
- Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。
7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。
実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文 参考訳(メタデータ) (2024-06-12T11:47:23Z) - An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。
その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文 参考訳(メタデータ) (2024-04-26T23:00:56Z) - AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。
操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。
本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - System Fingerprint Recognition for Deepfake Audio: An Initial Dataset
and Investigation [51.06875680387692]
システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提案する。
最新の最先端のディープラーニング技術を利用する7つの中国ベンダーの音声合成システムからデータセットを収集した。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Audio Defect Detection in Music with Deep Networks [8.680081568962997]
一般的な音楽コールのクリックなどのアーティファクトを、データ中心でコンテキストに敏感な検出ソリューションとして使用すること。
本稿では、エンド・ツー・エンドのエンコーダ・デコーダの構成に従って畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-11T15:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。