論文の概要: SONICS: Synthetic Or Not -- Identifying Counterfeit Songs
- arxiv url: http://arxiv.org/abs/2408.14080v1
- Date: Mon, 26 Aug 2024 08:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-27 14:42:58.989612
- Title: SONICS: Synthetic Or Not -- Identifying Counterfeit Songs
- Title(参考訳): SONICS: Synthetic or Not -- Identifying Counterfeit Songs
- Authors: Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, Shaikh Anowarul Fattah,
- Abstract要約: 我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。
歌唱における時間的長期依存性をモデル化することの重要性を強調した。
提案する新しいモデルSpecTTTraは,CNNやTransformerベースのモデルに比べて最大3倍高速で,メモリ効率が6倍高い。
- 参考スコア(独自算出の注目度): 0.16777183511743465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent surge in AI-generated songs presents exciting possibilities and challenges. While these tools democratize music creation, they also necessitate the ability to distinguish between human-composed and AI-generated songs for safeguarding artistic integrity and content curation. Existing research and datasets in fake song detection only focus on singing voice deepfake detection (SVDD), where the vocals are AI-generated but the instrumental music is sourced from real songs. However, this approach is inadequate for contemporary end-to-end AI-generated songs where all components (vocals, lyrics, music, and style) could be AI-generated. Additionally, existing datasets lack lyrics-music diversity, long-duration songs, and open fake songs. To address these gaps, we introduce SONICS, a novel dataset for end-to-end Synthetic Song Detection (SSD), comprising over 97k songs with over 49k synthetic songs from popular platforms like Suno and Udio. Furthermore, we highlight the importance of modeling long-range temporal dependencies in songs for effective authenticity detection, an aspect overlooked in existing methods. To capture these patterns, we propose a novel model, SpecTTTra, that is up to 3 times faster and 6 times more memory efficient compared to popular CNN and Transformer-based models while maintaining competitive performance. Finally, we offer both AI-based and Human evaluation benchmarks, addressing another deficiency in current research.
- Abstract(参考訳): 最近のAI生成楽曲の急増は、エキサイティングな可能性と挑戦を示している。
これらのツールは音楽制作を民主化する一方で、芸術的完全性とコンテンツキュレーションの保護のために、人間の作曲した曲とAI生成した曲を区別する能力も必要である。
フェイクソング検出における既存の研究とデータセットは、ボーカルがAIによって生成されるが、楽器音楽は実際の歌から供給される、歌声のディープフェイク検出(SVDD)のみに焦点を当てている。
しかし、このアプローチは、すべてのコンポーネント(声、歌詞、音楽、スタイル)をAI生成できる、現代のエンドツーエンドのAI生成曲には不十分である。
さらに、既存のデータセットには歌詞と音楽の多様性、長いデュレーション曲、オープンフェイクソングが欠けている。
これらのギャップに対処するため,Sano や Udio などの人気プラットフォームから,97k 以上の歌と49k 以上の合成歌からなる,エンドツーエンドの合成歌検出(SSD)のための新しいデータセット SONICS を紹介した。
さらに,既存の手法では見過ごされ,歌唱における時間的長期依存性を効果的に検出するためにモデル化することの重要性を強調した。
競合性能を維持しつつ,CNNやTransformerベースのモデルに比べて最大3倍高速で,メモリ効率が6倍高い新しいモデルSpecTTTraを提案する。
最後に、AIベースの評価ベンチマークとヒューマン評価ベンチマークの両方を提供し、現在の研究における別の欠陥に対処しています。
関連論文リスト
- Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset [0.29998889086656577]
人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。
共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
論文 参考訳(メタデータ) (2025-02-10T11:30:35Z) - Detecting Music Performance Errors with Transformers [3.6837762419929168]
既存の音楽誤り検出ツールは自動アライメントに依存している。
音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。
本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T07:04:20Z) - Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。
パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。
ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文 参考訳(メタデータ) (2024-10-19T05:44:05Z) - SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。
モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。
実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:37:07Z) - Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。
これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。
我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。
既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。
音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文 参考訳(メタデータ) (2024-06-21T15:19:21Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - An Analysis of Classification Approaches for Hit Song Prediction using
Engineered Metadata Features with Lyrics and Audio Features [5.871032585001082]
本研究は,より代替的なメタデータを用いて,Billboard Hot 100曲のトップ10ヒット曲の予測結果を改善することを目的としている。
k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。
その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成している。
論文 参考訳(メタデータ) (2023-01-31T09:48:53Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - SongDriver: Real-time Music Accompaniment Generation without Logical
Latency nor Exposure Bias [15.7153621508319]
SongDriverは論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムである。
SongDriverを、いくつかのオープンソースのデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルのaiSongデータセットでトレーニングします。
その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-13T15:05:27Z) - Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文 参考訳(メタデータ) (2022-08-18T08:31:15Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。