論文の概要: Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion
- arxiv url: http://arxiv.org/abs/2305.16353v1
- Date: Thu, 25 May 2023 02:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:05:27.298514
- Title: Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion
- Title(参考訳): Betray Oneself:Mono-to-Stereo変換による新しいオーディオディープフェイク検出モデル
- Authors: Rui Liu, Jinhua Zhang, Guanglai Gao and Haizhou Li
- Abstract要約: Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
- 参考スコア(独自算出の注目度): 70.99781219121803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Deepfake Detection (ADD) aims to detect the fake audio generated by
text-to-speech (TTS), voice conversion (VC) and replay, etc., which is an
emerging topic. Traditionally we take the mono signal as input and focus on
robust feature extraction and effective classifier design. However, the
dual-channel stereo information in the audio signal also includes important
cues for deepfake, which has not been studied in the prior work. In this paper,
we propose a novel ADD model, termed as M2S-ADD, that attempts to discover
audio authenticity cues during the mono-to-stereo conversion process. We first
projects the mono to a stereo signal using a pretrained stereo synthesizer,
then employs a dual-branch neural architecture to process the left and right
channel signals, respectively. In this way, we effectively reveal the artifacts
in the fake audio, thus improve the ADD performance. The experiments on the
ASVspoof2019 database show that M2S-ADD outperforms all baselines that input
mono. We release the source code at \url{https://github.com/AI-S2-Lab/M2S-ADD}.
- Abstract(参考訳): 音声ディープフェイク検出(ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
伝統的に、モノ信号を入力とし、ロバストな特徴抽出と効果的な分類器設計に焦点を当てる。
しかし、オーディオ信号の二重チャネルステレオ情報には、従来研究されていないディープフェイクのための重要な手がかりも含まれている。
本稿では,モノ・ステレオ変換過程において,音声の真正性を見いだそうとする新しいADDモデル M2S-ADDを提案する。
まず、事前訓練されたステレオシンセサイザーを用いてモノをステレオ信号に投影し、次に左右のチャネル信号を処理するためにデュアルブランチニューラルネットワークを用いる。
このようにして、偽音声のアーティファクトを効果的に明らかにし、ADD性能を向上する。
ASVspoof2019データベースでの実験では、M2S-ADDは入力モノの全てのベースラインより優れていた。
ソースコードは \url{https://github.com/AI-S2-Lab/M2S-ADD} で公開しています。
関連論文リスト
- Gotta Hear Them All: Sound Source Aware Vision to Audio Generation [13.55717701044619]
Vision-to-audio (V2A) はマルチメディアに広く応用されている。
音源認識型V2A(SSV2A)ジェネレータを提案する。
SSV2Aは, 世代的忠実度と関連性の両方において, 最先端の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-11-23T04:27:19Z) - Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。
7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。
実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文 参考訳(メタデータ) (2024-06-12T11:47:23Z) - The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。
本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。
ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文 参考訳(メタデータ) (2024-05-08T08:28:40Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - ADD 2022: the First Audio Deep Synthesis Detection Challenge [92.41777858637556]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。
ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文 参考訳(メタデータ) (2022-02-17T03:29:20Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。