論文の概要: An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio
- arxiv url: http://arxiv.org/abs/2208.09646v1
- Date: Sat, 20 Aug 2022 09:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-23 14:16:39.637048
- Title: An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio
- Title(参考訳): フェイクオーディオのVocoderフィンガープリント検出のための初期検討
- Authors: Xinrui Yan, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Haoxin Ma, Tao
Wang, Shiming Wang, Ruibo Fu
- Abstract要約: 本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
- 参考スコア(独自算出の注目度): 53.134423013599914
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many effective attempts have been made for fake audio detection. However,
they can only provide detection results but no countermeasures to curb this
harm. For many related practical applications, what model or algorithm
generated the fake audio also is needed. Therefore, We propose a new problem
for detecting vocoder fingerprints of fake audio. Experiments are conducted on
the datasets synthesized by eight state-of-the-art vocoders. We have
preliminarily explored the features and model architectures. The t-SNE
visualization shows that different vocoders generate distinct vocoder
fingerprints.
- Abstract(参考訳): 偽音声検出には多くの効果的な試みがなされている。
しかし、検出結果しか提供できないが、この害を抑える対策はない。
多くの関連応用において、偽音声を生成するモデルやアルゴリズムも必要である。
そこで本研究では,偽音声のボコーダ指紋を検出する新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
機能とモデルアーキテクチャを事前に検討しました。
t-sneの可視化は、異なるvocoderが異なるvocoderの指紋を生成することを示している。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio
Detection [59.083973178410474]
本稿では,シーンフェイク音声検出のためのこのようなデータセットを設計する(SceneFake)。
SceneFakeデータセットで操作された音声は、音声強調技術を用いて発話の音響シーンを改ざんするだけである。
テストセットで偽の発話を検出するだけでなく、偽検出モデルの一般化を評価して、不正な操作攻撃を検知する。
論文 参考訳(メタデータ) (2022-11-11T09:05:50Z) - System Fingerprint Recognition for Deepfake Audio: An Initial Dataset
and Investigation [51.06875680387692]
システム指紋認識(SFR)のための最初のディープフェイク音声データセットを提案する。
最新の最先端のディープラーニング技術を利用する7つの中国ベンダーの音声合成システムからデータセットを収集した。
論文 参考訳(メタデータ) (2022-08-21T05:15:40Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Audio Defect Detection in Music with Deep Networks [8.680081568962997]
一般的な音楽コールのクリックなどのアーティファクトを、データ中心でコンテキストに敏感な検出ソリューションとして使用すること。
本稿では、エンド・ツー・エンドのエンコーダ・デコーダの構成に従って畳み込みネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-11T15:56:14Z) - Neural Audio Fingerprint for High-specific Audio Retrieval based on
Contrastive Learning [14.60531205031547]
セグメントレベルの探索目的から導出するコントラスト学習フレームワークを提案する。
従来の音声フィンガープリントシステムが故障したセグメントレベルの検索タスクでは,10倍小さいストレージを用いたシステムが有望な結果を示した。
論文 参考訳(メタデータ) (2020-10-22T17:44:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。