論文の概要: SONICS: Synthetic Or Not -- Identifying Counterfeit Songs
- arxiv url: http://arxiv.org/abs/2408.14080v4
- Date: Tue, 25 Feb 2025 03:22:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:20:06.719318
- Title: SONICS: Synthetic Or Not -- Identifying Counterfeit Songs
- Title(参考訳): SONICS: Synthetic or Not -- Identifying Counterfeit Songs
- Authors: Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, Shaikh Anowarul Fattah,
- Abstract要約: 我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。
歌唱における時間的長期依存性をモデル化することの重要性を強調した。
長い曲では、私たちのトップパフォーマンスの変種は、F1スコアでVTを8%上回り、より38%速く、メモリは26%減っています。
- 参考スコア(独自算出の注目度): 0.16777183511743465
- License:
- Abstract: The recent surge in AI-generated songs presents exciting possibilities and challenges. These innovations necessitate the ability to distinguish between human-composed and synthetic songs to safeguard artistic integrity and protect human musical artistry. Existing research and datasets in fake song detection only focus on singing voice deepfake detection (SVDD), where the vocals are AI-generated but the instrumental music is sourced from real songs. However, these approaches are inadequate for detecting contemporary end-to-end artificial songs where all components (vocals, music, lyrics, and style) could be AI-generated. Additionally, existing datasets lack music-lyrics diversity, long-duration songs, and open-access fake songs. To address these gaps, we introduce SONICS, a novel dataset for end-to-end Synthetic Song Detection (SSD), comprising over 97k songs (4,751 hours) with over 49k synthetic songs from popular platforms like Suno and Udio. Furthermore, we highlight the importance of modeling long-range temporal dependencies in songs for effective authenticity detection, an aspect entirely overlooked in existing methods. To utilize long-range patterns, we introduce SpecTTTra, a novel architecture that significantly improves time and memory efficiency over conventional CNN and Transformer-based models. For long songs, our top-performing variant outperforms ViT by 8% in F1 score, is 38% faster, and uses 26% less memory, while also surpassing ConvNeXt with a 1% F1 score gain, 20% speed boost, and 67% memory reduction.
- Abstract(参考訳): 最近のAI生成楽曲の急増は、エキサイティングな可能性と挑戦を示している。
これらの革新は、人間の作曲と合成の歌を区別し、芸術的整合性を守り、人間の芸術的芸術を保護する能力を必要としている。
フェイクソング検出における既存の研究とデータセットは、ボーカルがAIによって生成されるが、楽器音楽は実際の歌から供給される、歌声のディープフェイク検出(SVDD)のみに焦点を当てている。
しかし、これらのアプローチは、すべてのコンポーネント(声、音楽、歌詞、スタイル)がAIによって生成されるような、現代のエンドツーエンドの人工歌を検出するには不十分である。
さらに、既存のデータセットには、音楽歌詞の多様性、長期保存曲、オープンアクセスのフェイクソングが欠けている。
これらのギャップに対処するため,Sano や Udio などの人気プラットフォームから,97k曲 (4,751時間) 以上と49k曲以上の合成歌からなる,エンドツーエンドの合成歌検出(SSD)のための新しいデータセット SONICS を紹介した。
さらに,既存の手法で完全に見落とされ,歌唱における時間的長期依存性を効果的に検出するためにモデル化することの重要性を強調した。
長距離パターンを利用するために、従来のCNNやTransformerベースのモデルよりも時間とメモリ効率を大幅に向上させる新しいアーキテクチャであるSpecTTTraを導入する。
長い曲では、私たちの最高のパフォーマンスの亜種は、F1スコアで8%、より38%速く、メモリ使用量は26%少なく、また1%のF1スコア、20%のスピードアップ、そして67%のメモリ削減でConvNeXtを上回っています。
関連論文リスト
- Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset [0.29998889086656577]
人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。
共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
論文 参考訳(メタデータ) (2025-02-10T11:30:35Z) - Detecting Music Performance Errors with Transformers [3.6837762419929168]
既存の音楽誤り検出ツールは自動アライメントに依存している。
音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。
本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T07:04:20Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - An Analysis of Classification Approaches for Hit Song Prediction using
Engineered Metadata Features with Lyrics and Audio Features [5.871032585001082]
本研究は,より代替的なメタデータを用いて,Billboard Hot 100曲のトップ10ヒット曲の予測結果を改善することを目的としている。
k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。
その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成している。
論文 参考訳(メタデータ) (2023-01-31T09:48:53Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - SongDriver: Real-time Music Accompaniment Generation without Logical
Latency nor Exposure Bias [15.7153621508319]
SongDriverは論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムである。
SongDriverを、いくつかのオープンソースのデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルのaiSongデータセットでトレーニングします。
その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:05:27Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。