Fugu-MT 論文翻訳(概要): Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion

論文の概要: Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion

arxiv url: http://arxiv.org/abs/2305.16353v1
Date: Thu, 25 May 2023 02:54:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 19:05:27.298514
Title: Betray Oneself: A Novel Audio DeepFake Detection Model via Mono-to-Stereo Conversion
Title（参考訳）: Betray Oneself:Mono-to-Stereo変換による新しいオーディオディープフェイク検出モデル
Authors: Rui Liu, Jinhua Zhang, Guanglai Gao and Haizhou Li
Abstract要約: Audio Deepfake Detection (ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。 M2S-ADDと呼ばれる新しいADDモデルを提案する。
参考スコア（独自算出の注目度）: 70.99781219121803
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Audio Deepfake Detection (ADD) aims to detect the fake audio generated by text-to-speech (TTS), voice conversion (VC) and replay, etc., which is an emerging topic. Traditionally we take the mono signal as input and focus on robust feature extraction and effective classifier design. However, the dual-channel stereo information in the audio signal also includes important cues for deepfake, which has not been studied in the prior work. In this paper, we propose a novel ADD model, termed as M2S-ADD, that attempts to discover audio authenticity cues during the mono-to-stereo conversion process. We first projects the mono to a stereo signal using a pretrained stereo synthesizer, then employs a dual-branch neural architecture to process the left and right channel signals, respectively. In this way, we effectively reveal the artifacts in the fake audio, thus improve the ADD performance. The experiments on the ASVspoof2019 database show that M2S-ADD outperforms all baselines that input mono. We release the source code at \url{https://github.com/AI-S2-Lab/M2S-ADD}.
Abstract（参考訳）: 音声ディープフェイク検出(ADD)は、テキスト音声(TTS)、音声変換(VC)、再生などによって生成された偽音声を検出することを目的としている。伝統的に、モノ信号を入力とし、ロバストな特徴抽出と効果的な分類器設計に焦点を当てる。しかし、オーディオ信号の二重チャネルステレオ情報には、従来研究されていないディープフェイクのための重要な手がかりも含まれている。本稿では,モノ・ステレオ変換過程において,音声の真正性を見いだそうとする新しいADDモデル M2S-ADDを提案する。まず、事前訓練されたステレオシンセサイザーを用いてモノをステレオ信号に投影し、次に左右のチャネル信号を処理するためにデュアルブランチニューラルネットワークを用いる。このようにして、偽音声のアーティファクトを効果的に明らかにし、ADD性能を向上する。 ASVspoof2019データベースでの実験では、M2S-ADDは入力モノの全てのベースラインより優れていた。ソースコードは \url{https://github.com/AI-S2-Lab/M2S-ADD} で公開しています。

関連論文リスト

ALLM4ADD: Unlocking the Capabilities of Audio Large Language Models for Audio Deepfake Detection [57.29614630309265]
オーディオディープフェイク検出(ADD)は、高忠実度音声生成モデルの台頭と誤用の可能性により、ますます重要になっている。 ALLM4ADD, ALLM-driven framework for ADDを提案する。具体的には, ADDタスクを音声質問応答問題として再構成し, モデルに「この音声は偽物か本物か?」という疑問を提起する。提案手法は,特にデータスカースシナリオにおいて,偽音声検出において優れた性能が得られることを示す実験を行った。
論文参考訳（メタデータ） (2025-05-16T10:10:03Z)
Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion [88.67015254278859]
ステレオ変換の詳細な探索を支援するため,高品質なトレーニングデータとベンチマークを提供するMono2Stereoデータセットを紹介した。 1) 左右のビューの違いは微妙であるが、既存のメトリクスでは全体のピクセルを考慮し、ステレオ効果に批判的な領域に集中できない。本稿では, ステレオ効果に関する人間の判断と高い相関性が得られる新しい評価指標, Stereo Intersection-over-Union を提案する。
論文参考訳（メタデータ） (2025-03-28T09:25:58Z)
Gotta Hear Them All: Sound Source Aware Vision to Audio Generation [13.55717701044619]
Vision-to-audio (V2A) はマルチメディアに広く応用されている。音源認識型V2A(SSV2A)ジェネレータを提案する。 SSV2Aは, 世代的忠実度と関連性の両方において, 最先端の手法を超越していることを示す。
論文参考訳（メタデータ） (2024-11-23T04:27:19Z)
Codecfake: An Initial Dataset for Detecting LLM-based Deepfake Audio [40.21394391724075]
大規模言語モデル(LLM)に基づくディープフェイク音声は、効果的な検出方法の緊急必要である。 7つの代表的ニューラルネットワークによって生成されるCodecfakeを提案する。実験結果から, ニューラルトレーニング型ADDモデルでは, ボコーダトレーニング型ADDモデルに比べて41.406%の誤差率の低下が認められた。
論文参考訳（メタデータ） (2024-06-12T11:47:23Z)
The Codecfake Dataset and Countermeasures for the Universally Detection of Deepfake Audio [42.84634652376024]
ALMベースのディープフェイクオーディオは、広範に広範に、高い騙しと、多目的性を示す。本研究では,ALMに基づくディープフェイク音声を効果的に検出するために,ALMに基づく音声生成手法のメカニズムに着目した。ドメインバランスと一般化されたミニマを学習するための CSAM 戦略を提案する。
論文参考訳（メタデータ） (2024-05-08T08:28:40Z)
Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文参考訳（メタデータ） (2023-01-30T04:44:34Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
ADD 2022: the First Audio Deep Synthesis Detection Challenge [92.41777858637556]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。 ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文参考訳（メタデータ） (2022-02-17T03:29:20Z)
Partially Fake Audio Detection by Self-attention-based Fake Span Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。 ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文参考訳（メタデータ） (2022-02-14T13:20:55Z)
Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文参考訳（メタデータ） (2020-07-20T06:20:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。