論文の概要: AI-Generated Music Detection in Broadcast Monitoring
- arxiv url: http://arxiv.org/abs/2602.06823v1
- Date: Fri, 06 Feb 2026 16:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.473865
- Title: AI-Generated Music Detection in Broadcast Monitoring
- Title(参考訳): 放送監視におけるAIによる音楽検出
- Authors: David Lopez-Ayala, Asier Cabello, Pablo Zinemanas, Emilio Molina, Martin Rocamora,
- Abstract要約: 我々は,放送スタイルのAI-音楽検出に適した最初のデータセットであるAI-OpenBMATを紹介する。
実際のテレビオーディオの持続パターンと大音量の関係に従う3,294の1分間のオーディオ抜粋を含んでいる。
我々は,SNRと持続ロバスト性を評価するために,CNNベースラインと最先端SpectTTTraモデルをベンチマークし,全放送シナリオで評価する。
- 参考スコア(独自算出の注目度): 1.1937220268355655
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI music generators have advanced to the point where their outputs are often indistinguishable from human compositions. While detection methods have emerged, they are typically designed and validated in music streaming contexts with clean, full-length tracks. Broadcast audio, however, poses a different challenge: music appears as short excerpts, often masked by dominant speech, conditions under which existing detectors fail. In this work, we introduce AI-OpenBMAT, the first dataset tailored to broadcast-style AI-music detection. It contains 3,294 one-minute audio excerpts (54.9 hours) that follow the duration patterns and loudness relations of real television audio, combining human-made production music with stylistically matched continuations generated with Suno v3.5. We benchmark a CNN baseline and state-of-the-art SpectTTTra models to assess SNR and duration robustness, and evaluate on a full broadcast scenario. Across all settings, models that excel in streaming scenarios suffer substantial degradation, with F1-scores dropping below 60% when music is in the background or has a short duration. These results highlight speech masking and short music length as critical open challenges for AI music detection, and position AI-OpenBMAT as a benchmark for developing detectors capable of meeting industrial broadcast requirements.
- Abstract(参考訳): AI音楽ジェネレータは、出力が人間の作曲と区別できないところまで進歩してきた。
検出方法が登場したが、典型的には、クリーンでフル長のトラックを持つ音楽ストリーミングのコンテキストで設計され、検証される。
しかし、ブロードキャストオーディオは、音楽が短い抜粋として現れ、しばしば支配的な音声によって覆われている。
本研究では,放送スタイルのAI-音楽検出に適した最初のデータセットであるAI-OpenBMATを紹介する。
3,294件の1分間のオーディオ抜粋(54.9時間)があり、実際のテレビのオーディオの持続パターンと大音量の関係を追及し、スノv3.5とスタイリスティックにマッチした継続と人間のプロデュース音楽を組み合わせたものである。
我々は,SNRと持続ロバスト性を評価するために,CNNベースラインと最先端SpectTTTraモデルをベンチマークし,全放送シナリオで評価する。
あらゆる設定において、ストリーミングのシナリオで優れているモデルは大幅に劣化し、F1スコアは音楽がバックグラウンドで、あるいは短い期間で60%以下に低下する。
これらの結果は、AI音楽検出における重要なオープン課題として、音声マスキングと短い音楽長を強調し、産業放送要求を満たすことができる検出器を開発するためのベンチマークとして、AI-OpenBMATを位置づけた。
関連論文リスト
- Segment Transformer: AI-Generated Music Detection via Music Structural Analysis [1.7034813545878587]
我々は,音楽セグメントの構造パターンを分析し,AIGM検出の精度を向上させることを目的とする。
具体的には、短い音声クリップから音楽的特徴を抽出するために、様々な事前学習モデルを統合する。
ロングオーディオのために,楽曲をセグメントに分割し,セグメント間関係を学習するセグメント変換器を開発した。
論文 参考訳(メタデータ) (2025-09-10T04:56:40Z) - Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。
既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。
本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文 参考訳(メタデータ) (2025-08-06T09:58:43Z) - Double Entendre: Robust Audio-Based AI-Generated Lyrics Detection via Multi-View Fusion [11.060929679400667]
本稿では,音声中の歌詞関連情報を自動書き起こした歌詞と音声特徴を組み合わせ,マルチモーダルでモジュール形式のレイトフュージョンパイプラインを提案する。
我々のD-detect法は、既存の歌詞ベースの検出器より優れ、音声の摂動にも頑健である。
論文 参考訳(メタデータ) (2025-06-19T02:56:49Z) - Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。
実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。
メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文 参考訳(メタデータ) (2025-05-03T21:45:13Z) - Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Towards Reliable Real-time Opera Tracking: Combining Alignment with
Audio Event Detectors to Increase Robustness [7.817685358710508]
まず、モーツァルトオペラのフル長録音に、オンライン動的時間ワープに基づく最先端オーディオアライメント手法を適用する。
我々は,トラッカーの最も厳しい誤りを分析し,オペラのシナリオに特有の3つの問題の原因を特定する。
本稿では,DTWをベースとした音楽トラッカーと特殊な音声イベント検出器の組み合わせを提案する。
論文 参考訳(メタデータ) (2020-06-19T09:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。