論文の概要: Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learning
- arxiv url: http://arxiv.org/abs/2512.00621v1
- Date: Sat, 29 Nov 2025 20:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.330866
- Title: Melody or Machine: Detecting Synthetic Music with Dual-Stream Contrastive Learning
- Title(参考訳): Melody or Machine:デュアルストリームコントラスト学習による合成音楽の検出
- Authors: Arnesh Batra, Dev Sharma, Krish Thukral, Ruhani Bhatia, Naman Batra, Aditya Gautam,
- Abstract要約: Melody or Machineは、13万曲以上の大規模なベンチマークだ。
CLAMは、新しいデュアルストリーム検出アーキテクチャである。
挑戦的なMoMベンチマークでは、F1スコアが0.925に達しています。
- 参考スコア(独自算出の注目度): 0.4310167974376404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid evolution of end-to-end AI music generation poses an escalating threat to artistic authenticity and copyright, demanding detection methods that can keep pace. While foundational, existing models like SpecTTTra falter when faced with the diverse and rapidly advancing ecosystem of new generators, exhibiting significant performance drops on out-of-distribution (OOD) content. This generalization failure highlights a critical gap: the need for more challenging benchmarks and more robust detection architectures. To address this, we first introduce Melody or Machine (MoM), a new large-scale benchmark of over 130,000 songs (6,665 hours). MoM is the most diverse dataset to date, built with a mix of open and closed-source models and a curated OOD test set designed specifically to foster the development of truly generalizable detectors. Alongside this benchmark, we introduce CLAM, a novel dual-stream detection architecture. We hypothesize that subtle, machine-induced inconsistencies between vocal and instrumental elements, often imperceptible in a mixed signal, offer a powerful tell-tale sign of synthesis. CLAM is designed to test this hypothesis by employing two distinct pre-trained audio encoders (MERT and Wave2Vec2) to create parallel representations of the audio. These representations are fused by a learnable cross-aggregation module that models their inter-dependencies. The model is trained with a dual-loss objective: a standard binary cross-entropy loss for classification, complemented by a contrastive triplet loss which trains the model to distinguish between coherent and artificially mismatched stream pairings, enhancing its sensitivity to synthetic artifacts without presuming a simple feature alignment. CLAM establishes a new state-of-the-art in synthetic music forensics. It achieves an F1 score of 0.925 on our challenging MoM benchmark.
- Abstract(参考訳): エンドツーエンドのAI音楽生成の急速な進化は、芸術的真正性と著作権に対するエスカレートな脅威となり、ペースを維持するための検出方法を必要としている。
SpecTTTraのような既存のモデルは、新しいジェネレータの多様で急速に進化するエコシステムに直面し、アウト・オブ・ディストリビューション(OOD)コンテンツに顕著なパフォーマンス低下を示す。
この一般化の失敗は、より挑戦的なベンチマークとより堅牢な検出アーキテクチャの必要性という、重大なギャップを浮き彫りにする。
この問題に対処するため、我々はまずMelody or Machine (MoM)を紹介した。
MoMはこれまでで最も多様なデータセットで、オープンソースのモデルとクローズドソースモデルの混合と、真の一般化可能な検出器の開発を促進するために特別に設計されたOODテストセットで構築されている。
このベンチマークとともに、新しいデュアルストリーム検出アーキテクチャであるCLAMを導入する。
音声と楽器の要素間の微妙な機械による不整合は、しばしば混合信号では認識できないが、強力な合成のサインを与える、という仮説を立てる。
CLAMは、2つの異なる事前訓練されたオーディオエンコーダ(MERTとWave2Vec2)を使用して、オーディオの並列表現を作成することで、この仮説をテストするように設計されている。
これらの表現は、相互依存性をモデル化した学習可能なクロスアグリゲーションモジュールによって融合される。
モデルには2つの目的がある: 分類のための標準的な二項交叉エントロピー損失は対照的な三重項損失に補完され、モデルがコヒーレントと人工的にミスマッチしたストリームペアリングを区別するように訓練され、単純な特徴アライメントを仮定することなく合成人工物に対する感度を高める。
CLAMは、合成音楽の法医学における新しい最先端技術を確立している。
挑戦的なMoMベンチマークでは、F1スコアが0.925に達しています。
関連論文リスト
- Diff-V2M: A Hierarchical Conditional Diffusion Model with Explicit Rhythmic Modeling for Video-to-Music Generation [26.273309051211204]
Video-to-music (V2M) の生成は、視覚的コンテンツに合わせて音楽を作成することを目的としている。
階層的条件拡散モデルに基づく一般的なV2MフレームワークであるDiff-V2Mを提案する。
リズムモデリングでは、低分解能メル-スペクトログラム、テンポグラム、オンセット検出機能(ODF)など、いくつかのリズム表現を評価することから始める。
論文 参考訳(メタデータ) (2025-11-12T08:02:06Z) - Every Step Counts: Decoding Trajectories as Authorship Fingerprints of dLLMs [63.82840470917859]
本稿では,dLLMの復号化機構をモデル属性の強力なツールとして利用できることを示す。
本稿では、デコードステップ間の構造的関係を捉え、モデル固有の振る舞いをよりよく明らかにする、DDM(Directed Decoding Map)と呼ばれる新しい情報抽出手法を提案する。
論文 参考訳(メタデータ) (2025-10-02T06:25:10Z) - ECHO: Frequency-aware Hierarchical Encoding for Variable-length Signals [8.411477071838592]
本稿では,周波数位置埋め込みと高度なバンド分割アーキテクチャを組み合わせた新しい基礎モデルECHOを提案する。
本手法は,様々な種類の機械信号データセットを用いて評価する。
論文 参考訳(メタデータ) (2025-08-20T13:10:44Z) - Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - Seeing What Matters: Generalizable AI-generated Video Detection with Forensic-Oriented Augmentation [31.737159092430108]
我々は、異なる生成的アーキテクチャを研究し、バイアスがなく、障害に対して堅牢で、モデル間で共有される差別的特徴を探索し識別する。
本稿では,ウェーブレット分解に基づく新たなデータ拡張戦略を導入し,より関連する法医学的手がかりを活用するために,特定の周波数関連帯域を置き換える。
本手法は最先端検出器よりも精度が向上し, 非常に最近の生成モデルにおいても優れた結果が得られる。
論文 参考訳(メタデータ) (2025-06-20T07:36:59Z) - Aligning Text-to-Music Evaluation with Human Preferences [63.08368388389259]
本稿では,TTM(生成音響テキスト・ツー・ミュージック)モデルの評価のための基準ベース分散指標の設計空間について検討する。
私たちは、合成データと人間の嗜好データの両方に標準のFAD設定が矛盾しているだけでなく、既存の指標のほとんどすべてがデシデラタを効果的に捉えていないことに気付きました。
我々は,自己教師型音声埋め込みモデルから表現に基づいて計算したMAUVE Audio Divergence(MAD)を提案する。
論文 参考訳(メタデータ) (2025-03-20T19:31:04Z) - HFMF: Hierarchical Fusion Meets Multi-Stream Models for Deepfake Detection [4.908389661988192]
HFMFは総合的な2段階のディープフェイク検出フレームワークである。
視覚変換器と畳み込みネットを階層的特徴融合機構を通じて統合する。
私たちのアーキテクチャは、多様なデータセットベンチマークで優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-01-10T00:20:29Z) - Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly
Detectors [117.61449210940955]
ビデオフレームレベルで適用された軽量マスク付きオートエンコーダ(AE)に基づく効率的な異常事象検出モデルを提案する。
動き勾配に基づく重みトークンへのアプローチを導入し、静的背景シーンから前景オブジェクトへ焦点を移す。
トレーニングビデオの強化のために合成異常事象を生成し,マスク付きAEモデルを用いてオリジナルのフレームを共同で再構築する。
論文 参考訳(メタデータ) (2023-06-21T06:18:05Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。