論文の概要: AI-Generated Song Detection via Lyrics Transcripts
- arxiv url: http://arxiv.org/abs/2506.18488v2
- Date: Sat, 28 Jun 2025 05:44:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 13:01:42.699715
- Title: AI-Generated Song Detection via Lyrics Transcripts
- Title(参考訳): 歌詞によるAI生成歌検出
- Authors: Markus Frohmann, Elena V. Epure, Gabriel Meseguer-Brocal, Markus Schedl, Romain Hennequin,
- Abstract要約: AIベースの音楽生成ツールの近年の能力向上は、音楽産業の隆盛を生み出している。
本稿では、一般的な自動音声認識(ASR)モデルを用いて曲を翻訳することで、このギャップを解決することを提案する。
我々の手法は、音声が様々な方法で摂動されるとき、最先端のオーディオベースよりも頑丈である。
- 参考スコア(独自算出の注目度): 15.1799390517192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent rise in capabilities of AI-based music generation tools has created an upheaval in the music industry, necessitating the creation of accurate methods to detect such AI-generated content. This can be done using audio-based detectors; however, it has been shown that they struggle to generalize to unseen generators or when the audio is perturbed. Furthermore, recent work used accurate and cleanly formatted lyrics sourced from a lyrics provider database to detect AI-generated music. However, in practice, such perfect lyrics are not available (only the audio is); this leaves a substantial gap in applicability in real-life use cases. In this work, we instead propose solving this gap by transcribing songs using general automatic speech recognition (ASR) models. We do this using several detectors. The results on diverse, multi-genre, and multi-lingual lyrics show generally strong detection performance across languages and genres, particularly for our best-performing model using Whisper large-v2 and LLM2Vec embeddings. In addition, we show that our method is more robust than state-of-the-art audio-based ones when the audio is perturbed in different ways and when evaluated on different music generators. Our code is available at https://github.com/deezer/robust-AI-lyrics-detection.
- Abstract(参考訳): AIベースの音楽生成ツールの最近の機能向上は、音楽業界で大流行を引き起こし、そのようなAI生成コンテンツを検出する正確な方法を作成する必要がある。
これは音声ベースの検出器を用いて行うことができるが、未知の発電機やオーディオが摂動した場合に一般化に苦慮していることが示されている。
さらに、最近の研究はAI生成音楽を検出するために、歌詞提供者データベースから得られた正確でクリーンな歌詞を使用していた。
しかし、実際には、このような完璧な歌詞は利用できない(音声のみである)。
そこで本研究では,一般的な自動音声認識(ASR)モデルを用いた楽曲の書き起こしにより,このギャップを解消する手法を提案する。
いくつかの検出器を使ってこれを行う。
特にWhisper large-v2 と LLM2Vec を組み込んだベストパフォーマンスモデルにおいて,多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
さらに,本手法は,音声を様々な方法で摂動させたり,異なる音楽ジェネレータで評価した場合に,最先端のオーディオベースよりも頑健であることを示す。
私たちのコードはhttps://github.com/deezer/robust-AI-lyrics-detectionで利用可能です。
関連論文リスト
- Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View Fusion [11.060929679400667]
本稿では,音声中の歌詞関連情報を自動書き起こした歌詞と音声特徴を組み合わせ,マルチモーダルでモジュール形式のレイトフュージョンパイプラインを提案する。
我々のD-detect法は、既存の歌詞ベースの検出器より優れ、音声の摂動にも頑健である。
論文 参考訳(メタデータ) (2025-06-19T02:56:49Z) - SONICS: Synthetic Or Not -- Identifying Counterfeit Songs [0.16777183511743465]
我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。
歌唱における時間的長期依存性をモデル化することの重要性を強調した。
長い曲では、私たちのトップパフォーマンスの変種は、F1スコアでVTを8%上回り、より38%速く、メモリは26%減っています。
論文 参考訳(メタデータ) (2024-08-26T08:02:57Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - LyricWhiz: Robust Multilingual Zero-shot Lyrics Transcription by Whispering to ChatGPT [48.28624219567131]
リリックウィズ(LyricWhiz)は、頑健で、多言語で、ゼロショットの自動歌詞書き起こし方式である。
我々は、弱教師付き頑健な音声認識モデルであるWhisperと、今日の最もパフォーマンスの高いチャットベースの大規模言語モデルであるGPT-4を使用している。
実験の結果,LyricWhizは英語の既存手法に比べて単語誤り率を大幅に低下させることがわかった。
論文 参考訳(メタデータ) (2023-06-29T17:01:51Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。