論文の概要: Echoes: A semantically-aligned music deepfake detection dataset
- arxiv url: http://arxiv.org/abs/2603.23667v1
- Date: Tue, 24 Mar 2026 19:10:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.002817
- Title: Echoes: A semantically-aligned music deepfake detection dataset
- Title(参考訳): Echoes: 意味的に整合した音楽ディープフェイク検出データセット
- Authors: Octavian Pascu, Dan Oneata, Horia Cucu, Nicolas M. Muller,
- Abstract要約: Echoesは、ディテクターのトレーニングとベンチマークのために設計された音楽のディープフェイク検出のための新しいデータセットである。
楽曲は3,577曲(110時間のオーディオ)で、複数のジャンル(ポップ、ロック、エレクトロニック)にまたがる。
我々は、最先端のWav2Vec2 XLS-R 2B表現を用いて、既存の3つのAI生成音楽データセットに対して、Echoをクロスデータセットで評価する。
- 参考スコア(独自算出の注目度): 10.959260825335354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Echoes, a new dataset for music deepfake detection designed for training and benchmarking detectors under realistic and provider-diverse conditions. Echoes comprises 3,577 tracks (110 hours of audio) spanning multiple genres (pop, rock, electronic), and includes content generated by ten popular AI music generation systems. To prevent shortcut learning and promote robust generalization, the dataset is deliberately constructed to be challenging, enforcing semantic-level alignment between spoofed audio and bona fide references. This alignment is achieved by conditioning generated audio samples directly on bona-fide waveforms or song descriptors. We evaluate Echoes in a cross-dataset setting against three existing AI-generated music datasets using state-of-the-art Wav2Vec2 XLS-R 2B representations. Results show that (i) Echoes is the hardest in-domain dataset; (ii) detectors trained on existing datasets transfer poorly to Echoes; (iii) training on Echoes yields the strongest generalization performance. These findings suggest that provider diversity and semantic alignment help learn more transferable detection cues.
- Abstract(参考訳): 私たちはEchoesという音楽のディープフェイク検出のための新しいデータセットを紹介します。
Echoesは、複数のジャンル(ポップ、ロック、エレクトロニック)にまたがる3,577トラック(110時間のオーディオ)と、10の人気のあるAI音楽生成システムによって生成されたコンテンツを含んでいる。
ショートカット学習の防止とロバストな一般化を促進するため、データセットは意図的に構築され、スプーフドオーディオとボナフェイド参照のセマンティックレベルアライメントを強制する。
このアライメントは、生成されたオーディオサンプルをボナファイド波形や曲記述子に直接条件付けすることで実現される。
我々は、最先端のWav2Vec2 XLS-R 2B表現を用いて、既存の3つのAI生成音楽データセットに対して、Echoをクロスデータセットで評価する。
その結果は
(i)Echoesはドメイン内でもっとも難しいデータセットです。
(ii) 既存のデータセットに基づいて訓練された検出器は、Echoに十分に転送されない。
第三に、Echoesのトレーニングは、最も強力な一般化性能をもたらす。
これらの結果は、プロバイダの多様性とセマンティックアライメントが、より伝達可能な検出方法を学ぶのに役立つことを示唆している。
関連論文リスト
- Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。
実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。
メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文 参考訳(メタデータ) (2025-05-03T21:45:13Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - Semantic Object Prediction and Spatial Sound Super-Resolution with
Binaural Sounds [106.87299276189458]
人間は視覚的および聴覚的手がかりを統合することで、オブジェクトを強く認識し、ローカライズすることができる。
この研究は、純粋に音に基づく、音生成対象の密接なセマンティックラベリングのためのアプローチを開発する。
論文 参考訳(メタデータ) (2020-03-09T15:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。