論文の概要: Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View Fusion
- arxiv url: http://arxiv.org/abs/2506.15981v1
- Date: Thu, 19 Jun 2025 02:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.920918
- Title: Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View Fusion
- Title(参考訳): Double Entendre:マルチビューフュージョンによるロバスト音声ベースAI生成歌詞検出
- Authors: Markus Frohmann, Gabriel Meseguer-Brocal, Markus Schedl, Elena V. Epure,
- Abstract要約: 本稿では,音声中の歌詞関連情報を自動書き起こした歌詞と音声特徴を組み合わせ,マルチモーダルでモジュール形式のレイトフュージョンパイプラインを提案する。
我々のD-detect法は、既存の歌詞ベースの検出器より優れ、音声の摂動にも頑健である。
- 参考スコア(独自算出の注目度): 11.060929679400667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of AI-based music generation tools is revolutionizing the music industry but also posing challenges to artists, copyright holders, and providers alike. This necessitates reliable methods for detecting such AI-generated content. However, existing detectors, relying on either audio or lyrics, face key practical limitations: audio-based detectors fail to generalize to new or unseen generators and are vulnerable to audio perturbations; lyrics-based methods require cleanly formatted and accurate lyrics, unavailable in practice. To overcome these limitations, we propose a novel, practically grounded approach: a multimodal, modular late-fusion pipeline that combines automatically transcribed sung lyrics and speech features capturing lyrics-related information within the audio. By relying on lyrical aspects directly from audio, our method enhances robustness, mitigates susceptibility to low-level artifacts, and enables practical applicability. Experiments show that our method, DE-detect, outperforms existing lyrics-based detectors while also being more robust to audio perturbations. Thus, it offers an effective, robust solution for detecting AI-generated music in real-world scenarios. Our code is available at https://github.com/deezer/robust-AI-lyrics-detection.
- Abstract(参考訳): AIベースの音楽生成ツールの急速な進歩は、音楽産業に革命をもたらしつつ、アーティスト、著作権保有者、そしてプロバイダーにも挑戦している。
これにより、このようなAI生成コンテンツを検出するための信頼性の高い方法が必要である。
音声ベースの検出器は、新しいまたは見えないジェネレータへの一般化に失敗し、オーディオの摂動に弱い。
これらの制限を克服するために,我々は,音声中の歌詞関連情報をキャプチャする音声特徴と自動書き起こしの歌詞とを組み合わせた,マルチモーダルなモジュール型レイトフュージョンパイプラインを提案する。
音声から直接の歌詞的側面を頼りにすることにより、ロバスト性を高め、低レベルのアーティファクトへの感受性を軽減し、実用的な適用性を実現する。
実験の結果,D-detect法は既存の歌詞ベース検出器より優れており,音声の摂動にも頑健であることがわかった。
したがって、現実世界のシナリオでAI生成音楽を検出するための、効果的で堅牢なソリューションを提供する。
私たちのコードはhttps://github.com/deezer/robust-AI-lyrics-detectionで利用可能です。
関連論文リスト
- SONICS: Synthetic Or Not -- Identifying Counterfeit Songs [0.16777183511743465]
我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。
歌唱における時間的長期依存性をモデル化することの重要性を強調した。
長い曲では、私たちのトップパフォーマンスの変種は、F1スコアでVTを8%上回り、より38%速く、メモリは26%減っています。
論文 参考訳(メタデータ) (2024-08-26T08:02:57Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。