論文の概要: Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion
- arxiv url: http://arxiv.org/abs/2305.16353v1
- Date: Thu, 25 May 2023 02:54:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 19:05:27.298514
- Title: Betray Oneself: A Novel Audio DeepFake Detection Model via
Mono-to-Stereo Conversion
- Title(参考訳): Betray Oneself:Mono-to-Stereo変換による新しいオーディオディープフェイク検出モデル
- Authors: Rui Liu, Jinhua Zhang, Guanglai Gao and Haizhou Li
- Abstract要約: Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
M2S-ADDと呼ばれる新しいADDモデルを提案する。
- 参考スコア(独自算出の注目度): 70.99781219121803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio Deepfake Detection (ADD) aims to detect the fake audio generated by
text-to-speech (TTS), voice conversion (VC) and replay, etc., which is an
emerging topic. Traditionally we take the mono signal as input and focus on
robust feature extraction and effective classifier design. However, the
dual-channel stereo information in the audio signal also includes important
cues for deepfake, which has not been studied in the prior work. In this paper,
we propose a novel ADD model, termed as M2S-ADD, that attempts to discover
audio authenticity cues during the mono-to-stereo conversion process. We first
projects the mono to a stereo signal using a pretrained stereo synthesizer,
then employs a dual-branch neural architecture to process the left and right
channel signals, respectively. In this way, we effectively reveal the artifacts
in the fake audio, thus improve the ADD performance. The experiments on the
ASVspoof2019 database show that M2S-ADD outperforms all baselines that input
mono. We release the source code at \url{https://github.com/AI-S2-Lab/M2S-ADD}.
- Abstract(参考訳): 音声ディープフェイク検出(ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。
伝統的に、モノ信号を入力とし、ロバストな特徴抽出と効果的な分類器設計に焦点を当てる。
しかし、オーディオ信号の二重チャネルステレオ情報には、従来研究されていないディープフェイクのための重要な手がかりも含まれている。
本稿では,モノ・ステレオ変換過程において,音声の真正性を見いだそうとする新しいADDモデル M2S-ADDを提案する。
まず、事前訓練されたステレオシンセサイザーを用いてモノをステレオ信号に投影し、次に左右のチャネル信号を処理するためにデュアルブランチニューラルネットワークを用いる。
このようにして、偽音声のアーティファクトを効果的に明らかにし、ADD性能を向上する。
ASVspoof2019データベースでの実験では、M2S-ADDは入力モノの全てのベースラインより優れていた。
ソースコードは \url{https://github.com/AI-S2-Lab/M2S-ADD} で公開しています。
関連論文リスト
- AV2Wav: Diffusion-Based Re-synthesis from Continuous Self-supervised
Features for Audio-Visual Speech Enhancement [20.447323647632913]
AV2Wavは再合成に基づく音声視覚音声強調手法である。
我々は、韻律や話者情報を保持するために、離散表現よりも連続表現を用いる。
提案手法は,自動計測と人間の聴取テストの両方の観点から,マスキングベースのベースラインよりも優れている。
論文 参考訳(メタデータ) (2023-09-14T21:07:53Z) - BAVS: Bootstrapping Audio-Visual Segmentation by Integrating Foundation
Knowledge [43.92428145744478]
音声・視覚のセグメンテーションを行う2段階のブートストラップフレームワークを提案する。
第1段階では,視覚データから潜在的聴覚オブジェクトを局所化するためにセグメンテーションモデルを用いる。
第2段階では、音響-視覚的セマンティック統合戦略(AVIS)を開発し、音響-音響オブジェクトをローカライズする。
論文 参考訳(メタデータ) (2023-08-20T06:48:08Z) - TranssionADD: A multi-frame reinforcement based sequence tagging model
for audio deepfake detection [11.27584658526063]
第2回Audio Deepfake Detection Challenge (ADD 2023)は、ディープフェイク音声の検出と分析を目的としている。
本稿では,モデルロバストネスと音声セグメント出力の解法として,新しいTranssionADDシステムを提案する。
提案システムの有効性とロバスト性を実証し, トラック2で2位となった。
論文 参考訳(メタデータ) (2023-06-27T05:18:25Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - ADD 2022: the First Audio Deep Synthesis Detection Challenge [109.59598164826859]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。
ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文 参考訳(メタデータ) (2022-02-17T03:29:20Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。