論文の概要: Segment Transformer: AI-Generated Music Detection via Music Structural Analysis
- arxiv url: http://arxiv.org/abs/2509.08283v1
- Date: Wed, 10 Sep 2025 04:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.309524
- Title: Segment Transformer: AI-Generated Music Detection via Music Structural Analysis
- Title(参考訳): Segment Transformer: 音楽構造解析によるAI生成音楽検出
- Authors: Yumin Kim, Seonghyeon Go,
- Abstract要約: 我々は,音楽セグメントの構造パターンを分析し,AIGM検出の精度を向上させることを目的とする。
具体的には、短い音声クリップから音楽的特徴を抽出するために、様々な事前学習モデルを統合する。
ロングオーディオのために,楽曲をセグメントに分割し,セグメント間関係を学習するセグメント変換器を開発した。
- 参考スコア(独自算出の注目度): 1.7034813545878587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Audio and music generation systems have been remarkably developed in the music information retrieval (MIR) research field. The advancement of these technologies raises copyright concerns, as ownership and authorship of AI-generated music (AIGM) remain unclear. Also, it can be difficult to determine whether a piece was generated by AI or composed by humans clearly. To address these challenges, we aim to improve the accuracy of AIGM detection by analyzing the structural patterns of music segments. Specifically, to extract musical features from short audio clips, we integrated various pre-trained models, including self-supervised learning (SSL) models or an audio effect encoder, each within our suggested transformer-based framework. Furthermore, for long audio, we developed a segment transformer that divides music into segments and learns inter-segment relationships. We used the FakeMusicCaps and SONICS datasets, achieving high accuracy in both the short-audio and full-audio detection experiments. These findings suggest that integrating segment-level musical features into long-range temporal analysis can effectively enhance both the performance and robustness of AIGM detection systems.
- Abstract(参考訳): 音楽情報検索(MIR)研究分野において,音楽・音楽生成システムの開発が著しく進んでいる。
これらの技術の進歩は著作権の懸念を高め、AIGM(AI- generated music)の所有権とオーサシップは依然として不明である。
また、AIが生成したのか、人間が明確に構成したのかを判断することは困難である。
これらの課題に対処するために,音楽セグメントの構造パターンを分析し,AIGM検出の精度を向上させることを目的とする。
具体的には、短い音声クリップから音楽的特徴を抽出するために、自己教師付き学習(SSL)モデルやオーディオエフェクトエンコーダなど、事前訓練された様々なモデルを統合した。
さらに,長い音声に対して,楽曲をセグメントに分割し,セグメント間関係を学習するセグメント変換器を開発した。
我々は,FakeMusicCapsとSONICSのデータセットを用いて,短音,全音の両方で高精度な検出実験を行った。
これらの結果は,セグメントレベルの音楽特徴を長期時間解析に統合することにより,AIGM検出システムの性能とロバスト性の両方を効果的に向上させることができることを示唆している。
関連論文リスト
- ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。
実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。
メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文 参考訳(メタデータ) (2025-05-03T21:45:13Z) - Estimating Musical Surprisal in Audio [4.056099795258358]
シンボリック・ミュージックにおけるサブプライムのプロキシとしての自己回帰モデルからのワンステップ予測の情報コンテンツ(IC)
我々は、事前訓練されたオートエンコーダネットワークの圧縮遅延音声表現を予測するために、自己回帰変換モデルを訓練する。
音声・音楽の特徴とICの関係について検討し,音節の変動や声の大きさと相関し,低音域,不協和性,リズムの複雑度,および音声・音楽の特徴に関連するオンセット密度を推定した。
論文 参考訳(メタデータ) (2025-01-13T16:46:45Z) - Music102: An $D_{12}$-equivariant transformer for chord progression accompaniment [0.0]
Music102は、$D_12$-equivariant Transformerによるコード進行伴奏の強化を目的とした高度なモデルである。
グループ理論とシンボリック音楽構造にインスパイアされたMusic102は、トランスポジションやリフレクション操作のような音楽対称性を活用し、これらの特性をトランスフォーマーアーキテクチャに統合する。
論文 参考訳(メタデータ) (2024-10-23T03:11:01Z) - Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Learning of Deep Features for Music Segmentation [8.528384027684192]
音楽セグメンテーション(英: Music segmentation)は、音楽セグメンテーションの境界を識別し、ラベル付けする問題である。
様々な楽曲セグメンテーションアルゴリズムの性能は、音声を表現するために選択された音声機能に依存している。
本研究では,畳み込みニューラルネットワーク(CNN)を用いたディープ・フィーチャー・埋め込みの教師なしトレーニングを音楽セグメンテーションのために検討した。
論文 参考訳(メタデータ) (2021-08-30T01:55:44Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。