Fugu-MT 論文翻訳(概要): SONICS: Synthetic Or Not -- Identifying Counterfeit Songs

論文の概要: SONICS: Synthetic Or Not -- Identifying Counterfeit Songs

arxiv url: http://arxiv.org/abs/2408.14080v3
Date: Sun, 6 Oct 2024 04:03:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 05:04:12.139315
Title: SONICS: Synthetic Or Not -- Identifying Counterfeit Songs
Title（参考訳）: SONICS: Synthetic or Not -- Identifying Counterfeit Songs
Authors: Md Awsafur Rahman, Zaber Ibn Abdul Hakim, Najibul Haque Sarker, Bishmoy Paul, Shaikh Anowarul Fattah,
Abstract要約: 我々は、エンドツーエンド合成歌検出(SSD)のための新しいデータセットSONICSを紹介する。歌唱における時間的長期依存性をモデル化することの重要性を強調した。特に、長いオーディオサンプルでは、私たちの最高のパフォーマンスの亜種は、ViTのスコアを8%上回り、スピードは38%、メモリ使用量は26%減った。
参考スコア（独自算出の注目度）: 0.16777183511743465
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The recent surge in AI-generated songs presents exciting possibilities and challenges. While these inventions democratize music creation, they also necessitate the ability to distinguish between human-composed and synthetic songs to safeguard artistic integrity and protect human musical artistry. Existing research and datasets in fake song detection only focus on singing voice deepfake detection (SVDD), where the vocals are AI-generated but the instrumental music is sourced from real songs. However, these approaches are inadequate for detecting contemporary end-to-end artificial songs where all components (vocals, music, lyrics, and style) could be AI-generated. Additionally, existing datasets lack music-lyrics diversity, long-duration songs, and open-access fake songs. To address these gaps, we introduce SONICS, a novel dataset for end-to-end Synthetic Song Detection (SSD), comprising over 97k songs (4,751 hours) with over 49k synthetic songs from popular platforms like Suno and Udio. Furthermore, we highlight the importance of modeling long-range temporal dependencies in songs for effective authenticity detection, an aspect entirely overlooked in existing methods. To utilize long-range patterns, we introduce SpecTTTra, a novel architecture that significantly improves time and memory efficiency over conventional CNN and Transformer-based models. In particular, for long audio samples, our top-performing variant outperforms ViT by 8% F1 score while being 38% faster and using 26% less memory. Additionally, in comparison with ConvNeXt, our model achieves 1% gain in F1 score with 20% boost in speed and 67% reduction in memory usage. Other variants of our model family provide even better speed and memory efficiency with competitive performance.
Abstract（参考訳）: 最近のAI生成楽曲の急増は、エキサイティングな可能性と挑戦を示している。これらの発明は、音楽の創造を民主化する一方で、芸術的整合性を守り、人間の音楽芸術を保護するために、人間の構成した歌と合成歌を区別する能力も必要である。フェイクソング検出における既存の研究とデータセットは、ボーカルがAIによって生成されるが、楽器音楽は実際の歌から供給される、歌声のディープフェイク検出(SVDD)のみに焦点を当てている。しかし、これらのアプローチは、すべてのコンポーネント(声、音楽、歌詞、スタイル)がAIによって生成されるような、現代のエンドツーエンドの人工歌を検出するには不十分である。さらに、既存のデータセットには、音楽歌詞の多様性、長いデュレーション曲、オープンアクセスのフェイクソングが欠けている。これらのギャップに対処するため,Sano や Udio などの人気プラットフォームから,97k曲 (4,751時間) 以上と49k曲以上の合成歌からなる,エンドツーエンドの合成歌検出(SSD)のための新しいデータセット SONICS を紹介した。さらに,既存の手法で完全に見落とされ,歌唱における時間的長期依存性を効果的に検出するためにモデル化することの重要性を強調した。長距離パターンを利用するために、従来のCNNやTransformerベースのモデルよりも時間とメモリ効率を大幅に向上させる新しいアーキテクチャであるSpecTTTraを導入する。特に、長いオーディオサンプルでは、私たちの最高のパフォーマンスの亜種は、ViTのスコアを8%上回り、スピードは38%、メモリ使用量は26%減った。さらに,ConvNeXtと比較してF1スコアが1%向上し,速度が20%向上し,メモリ使用量が67%減少した。モデルファミリーの他のバリエーションは、競争力のあるパフォーマンスで、より優れたスピードとメモリ効率を提供する。

関連論文リスト

AI-Generated Song Detection via Lyrics Transcripts [15.1799390517192]
AIベースの音楽生成ツールの近年の能力向上は、音楽産業の隆盛を生み出している。本稿では、一般的な自動音声認識(ASR)モデルを用いて曲を翻訳することで、このギャップを解決することを提案する。我々の手法は、音声が様々な方法で摂動されるとき、最先端のオーディオベースよりも頑丈である。
論文参考訳（メタデータ） (2025-06-23T10:42:50Z)
Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View Fusion [11.060929679400667]
本稿では,音声中の歌詞関連情報を自動書き起こした歌詞と音声特徴を組み合わせ,マルチモーダルでモジュール形式のレイトフュージョンパイプラインを提案する。我々のD-detect法は、既存の歌詞ベースの検出器より優れ、音声の摂動にも頑健である。
論文参考訳（メタデータ） (2025-06-19T02:56:49Z)
SLEEPING-DISCO 9M: A large-scale pre-training dataset for generative music modeling [0.0]
我々の知る限りでは、ジェネレーティブな音楽モデリングタスクに人気がありよく知られた曲を表すオープンソースの高品質なデータセットは存在しない。我々のデータセットはこの物語を変え、実際のポピュラー音楽と世界有数のアーティストを用いて構築されたデータセットを提供する。
論文参考訳（メタデータ） (2025-06-17T08:08:08Z)
Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文参考訳（メタデータ） (2025-05-03T21:45:13Z)
Automatic Identification of Samples in Hip-Hop Music via Multi-Loss Training and an Artificial Dataset [0.29998889086656577]
人工データセットでトレーニングされた畳み込みニューラルネットワークは、商用ヒップホップ音楽の実際のサンプルを識別できることを示す。共同分類とメートル法学習損失を用いてモデルを最適化し,実世界のサンプリングの精度を13%向上することを示す。
論文参考訳（メタデータ） (2025-02-10T11:30:35Z)
Detecting Music Performance Errors with Transformers [3.6837762419929168]
既存の音楽誤り検出ツールは自動アライメントに依存している。音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
論文参考訳（メタデータ） (2025-01-03T07:04:20Z)
Audio Processing using Pattern Recognition for Music Genre Classification [0.0]
本研究は,GTZANデータセットを用いた音楽ジャンル分類における機械学習手法の適用について検討する。パーソナライズされた音楽レコメンデーションの需要が高まる中、私たちは、ブルース、クラシック、ジャズ、ヒップホップ、カントリーという5つのジャンルの分類に注力しました。 ANNモデルは最高の性能を示し、検証精度は92.44%に達した。
論文参考訳（メタデータ） (2024-10-19T05:44:05Z)
SongCreator: Lyrics-based Universal Song Generation [53.248473603201916]
SongCreatorは、声楽と伴奏の両方で曲を生成するという課題に取り組むために設計された曲生成システムである。モデルには2つの新しいデザインがある: ボーカルの情報と伴奏を収録するための巧妙に設計された二重系列言語モデル (M) と、DSLMのための一連の注意マスク戦略である。実験では,8つのタスクすべてに対して,最先端ないし競争的なパフォーマンスを実現することにより,SongCreatorの有効性を示す。
論文参考訳（メタデータ） (2024-09-09T19:37:07Z)
Synthetic Lyrics Detection Across Languages and Genres [4.987546582439803]
音楽コンテンツ、特に歌詞を生成する大きな言語モデル(LLM)が人気を集めている。これまで様々な領域におけるコンテンツ検出について研究されてきたが、音楽におけるテキストのモダリティ、歌詞に焦点を当てた研究は行われていない。我々は、複数の言語、音楽ジャンル、アーティストのリアルとシンセサイザーの多様なデータセットをキュレートした。既存の合成テキスト検出手法について,未探索のデータ型である歌詞に対して,徹底的に評価を行った。音楽と産業の制約に従えば、これらのアプローチが言語全体にわたってどのように一般化され、データの可用性に配慮し、多言語言語コンテンツを処理し、数ショット設定で新しいジャンルで演奏するかを検討する。
論文参考訳（メタデータ） (2024-06-21T15:19:21Z)
MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文参考訳（メタデータ） (2024-04-09T15:35:52Z)
MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文参考訳（メタデータ） (2023-06-18T12:56:46Z)
GETMusic: Generating Any Music Tracks with a Unified Representation and Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。 GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文参考訳（メタデータ） (2023-05-18T09:53:23Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
An Analysis of Classification Approaches for Hit Song Prediction using Engineered Metadata Features with Lyrics and Audio Features [5.871032585001082]
本研究は,より代替的なメタデータを用いて,Billboard Hot 100曲のトップ10ヒット曲の予測結果を改善することを目的としている。 k-nearest、Naive Bayes、Random Forest、Logistic Regression、Multilayer Perceptronの5つの機械学習アプローチが適用される。その結果,Random Forest (RF) と Logistic Regression (LR) は,それぞれ89.1%,87.2%,0.91,0.93AUCを達成している。
論文参考訳（メタデータ） (2023-01-31T09:48:53Z)
Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文参考訳（メタデータ） (2022-11-21T07:19:17Z)
Museformer: Transformer with Fine- and Coarse-Grained Attention for Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文参考訳（メタデータ） (2022-10-19T07:31:56Z)
SongDriver: Real-time Music Accompaniment Generation without Logical Latency nor Exposure Bias [15.7153621508319]
SongDriverは論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムである。 SongDriverを、いくつかのオープンソースのデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルのaiSongデータセットでトレーニングします。その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れていた。
論文参考訳（メタデータ） (2022-09-13T15:05:27Z)
Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文参考訳（メタデータ） (2022-08-18T08:31:15Z)
Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文参考訳（メタデータ） (2022-04-01T17:53:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。