Fugu-MT 論文翻訳(概要): An Initial Investigation for Detecting Vocoder Fingerprints of Fake Audio

論文の概要: An Initial Investigation for Detecting Vocoder Fingerprints of Fake Audio

arxiv url: http://arxiv.org/abs/2208.09646v1
Date: Sat, 20 Aug 2022 09:23:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-23 14:16:39.637048
Title: An Initial Investigation for Detecting Vocoder Fingerprints of Fake Audio
Title（参考訳）: フェイクオーディオのVocoderフィンガープリント検出のための初期検討
Authors: Xinrui Yan, Jiangyan Yi, Jianhua Tao, Chenglong Wang, Haoxin Ma, Tao Wang, Shiming Wang, Ruibo Fu
Abstract要約: 本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。 8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
参考スコア（独自算出の注目度）: 53.134423013599914
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many effective attempts have been made for fake audio detection. However, they can only provide detection results but no countermeasures to curb this harm. For many related practical applications, what model or algorithm generated the fake audio also is needed. Therefore, We propose a new problem for detecting vocoder fingerprints of fake audio. Experiments are conducted on the datasets synthesized by eight state-of-the-art vocoders. We have preliminarily explored the features and model architectures. The t-SNE visualization shows that different vocoders generate distinct vocoder fingerprints.
Abstract（参考訳）: 偽音声検出には多くの効果的な試みがなされている。しかし、検出結果しか提供できないが、この害を抑える対策はない。多くの関連応用において、偽音声を生成するモデルやアルゴリズムも必要である。そこで本研究では,偽音声のボコーダ指紋を検出する新しい問題を提案する。 8つの最先端ボコーダによって合成されたデータセットについて実験を行った。機能とモデルアーキテクチャを事前に検討しました。 t-sneの可視化は、異なるvocoderが異なるvocoderの指紋を生成することを示している。

関連論文リスト

Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。 7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文参考訳（メタデータ） (2024-06-12T11:47:23Z)
An RFP dataset for Real, Fake, and Partially fake audio detection [0.36832029288386137]
RFP da-tasetは、部分的フェイク(PF)、雑音を伴う音声、音声変換(VC)、テキスト音声(TTS)、リアルの5つの異なるオーディオタイプから構成される。その後、データは複数の検出モデルを評価するために使用され、利用可能なモデルは、完全に偽のオーディオではなく、PFオーディオを検出するときに、著しく高い等速誤差率(EER)を発生させる。
論文参考訳（メタデータ） (2024-04-26T23:00:56Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
SceneFake: An Initial Dataset and Benchmarks for Scene Fake Audio Detection [54.74467470358476]
本稿では,シーンフェイク音声検出のためのデータセットSceneFakeを提案する。操作されたオーディオは、オリジナルオーディオの音響シーンを改ざんするだけで生成される。本論文では,SceneFakeデータセット上での擬似音声検出ベンチマーク結果について報告する。
論文参考訳（メタデータ） (2022-11-11T09:05:50Z)
Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文参考訳（メタデータ） (2022-07-20T15:41:47Z)
Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文参考訳（メタデータ） (2022-04-06T20:51:40Z)
Partially Fake Audio Detection by Self-attention-based Fake Span Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。 ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文参考訳（メタデータ） (2022-02-14T13:20:55Z)
Audio Defect Detection in Music with Deep Networks [8.680081568962997]
一般的な音楽コールのクリックなどのアーティファクトを、データ中心でコンテキストに敏感な検出ソリューションとして使用すること。本稿では、エンド・ツー・エンドのエンコーダ・デコーダの構成に従って畳み込みネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-02-11T15:56:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。