論文の概要: Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection
- arxiv url: http://arxiv.org/abs/2601.13647v1
- Date: Tue, 20 Jan 2026 06:31:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.184211
- Title: Fusion Segment Transformer: Bi-Directional Attention Guided Fusion Network for AI-Generated Music Detection
- Title(参考訳): Fusion Segment Transformer:AI生成音楽検出のための双方向アテンション誘導核融合ネットワーク
- Authors: Yumin Kim, Seonghyeon Go,
- Abstract要約: 我々は、Fusion Segment Transformerと呼ばれるSegment Transformerの改良版を提案する。
これまでの研究と同様に、多様な特徴抽出器を用いて短い音楽セグメントからコンテンツ埋め込みを抽出する。
我々は、Gated Fusion Layerを導入して、AI生成音楽のフルオーディオ検出のためのアーキテクチャを強化する。
- 参考スコア(独自算出の注目度): 1.7034813545878587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of generative AI technology, anyone can now easily create and deploy AI-generated music, which has heightened the need for technical solutions to address copyright and ownership issues. While existing works mainly focused on short-audio, the challenge of full-audio detection, which requires modeling long-term structure and context, remains insufficiently explored. To address this, we propose an improved version of the Segment Transformer, termed the Fusion Segment Transformer. As in our previous work, we extract content embeddings from short music segments using diverse feature extractors. Furthermore, we enhance the architecture for full-audio AI-generated music detection by introducing a Gated Fusion Layer that effectively integrates content and structural information, enabling the capture of long-term context. Experiments on the SONICS and AIME datasets show that our approach outperforms the previous model and recent baselines, achieving state-of-the-art results in AI-generated music detection.
- Abstract(参考訳): 生成AI技術の台頭により、誰でも簡単にAI生成音楽を作成およびデプロイできるようになり、著作権と所有権の問題に対処する技術的なソリューションの必要性が高まった。
既存の研究は主にショートオーディオに焦点を当てているが、長期構造と文脈のモデリングを必要とするフルオーディオ検出の課題はいまだ不十分である。
そこで本研究では,Fusion Segment Transformerと呼ばれるSegment Transformerの改良版を提案する。
これまでの研究と同様に、多様な特徴抽出器を用いて短い音楽セグメントからコンテンツ埋め込みを抽出する。
さらに、コンテンツと構造情報を効果的に統合するGated Fusion Layerを導入し、長期的コンテキストのキャプチャを可能にすることで、AI生成音楽のフルオーディオ検出のためのアーキテクチャを強化する。
SONICSとAIMEデータセットの実験により、我々のアプローチは過去のモデルと最近のベースラインより優れており、AIによる音楽検出の最先端結果が得られている。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Segment Transformer: AI-Generated Music Detection via Music Structural Analysis [1.7034813545878587]
我々は,音楽セグメントの構造パターンを分析し,AIGM検出の精度を向上させることを目的とする。
具体的には、短い音声クリップから音楽的特徴を抽出するために、様々な事前学習モデルを統合する。
ロングオーディオのために,楽曲をセグメントに分割し,セグメント間関係を学習するセグメント変換器を開発した。
論文 参考訳(メタデータ) (2025-09-10T04:56:40Z) - Detecting Musical Deepfakes [0.0]
本研究では,FakeMusicCapsデータセットを用いたAI生成楽曲の検出について検討した。
実世界の逆境条件をシミュレートするため, テンポストレッチとピッチシフトをデータセットに適用した。
メルスペクトログラムは、修正されたオーディオから生成され、その後、畳み込みニューラルネットワークのトレーニングと評価に使用された。
論文 参考訳(メタデータ) (2025-05-03T21:45:13Z) - Extending Visual Dynamics for Video-to-Music Generation [51.274561293909926]
DyViMは、ビデオから音楽への生成のための動的モデリングを強化する新しいフレームワークである。
高レベルのセマンティクスは、クロスアテンションメカニズムを通じて伝達される。
実験では、DyViMが最先端(SOTA)法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-04-10T09:47:26Z) - AVS-Mamba: Exploring Temporal and Multi-modal Mamba for Audio-Visual Segmentation [62.682428307810525]
音声・視覚的セグメンテーションタスクに対処する選択状態空間モデルであるAVS-Mambaを導入する。
我々のフレームワークはビデオ理解とクロスモーダル学習の2つの重要な要素を取り入れている。
提案手法は, AVSBench-object と AVS-semantic のデータセット上で, 最新の結果を実現する。
論文 参考訳(メタデータ) (2025-01-14T03:20:20Z) - Video-to-Audio Generation with Hidden Alignment [27.11625918406991]
我々は、視覚エンコーダ、補助埋め込み、データ拡張技術に焦点をあてて、ビデオ・オーディオ生成パラダイムに関する洞察を提供する。
提案モデルでは,最先端のビデオ・オーディオ生成機能を示す。
論文 参考訳(メタデータ) (2024-07-10T08:40:39Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - Audio-aware Query-enhanced Transformer for Audio-Visual Segmentation [22.28510611697998]
本稿では,この課題に対処するための新しいtextbfAudio-aware query-enhanced textbfTRansformer (AuTR) を提案する。
既存の手法とは異なり,本手法では,音声・視覚機能の深層融合と集約を可能にするマルチモーダルトランスフォーマーアーキテクチャを導入している。
論文 参考訳(メタデータ) (2023-07-25T03:59:04Z) - ASiT: Local-Global Audio Spectrogram vIsion Transformer for Event
Classification [42.95038619688867]
ASiTは、グループマスク付きモデル学習と自己蒸留を用いて、局所的およびグローバルな文脈情報をキャプチャする、新しい自己教師型学習フレームワークである。
我々は、音声イベント分類、キーワードスポッティング、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
論文 参考訳(メタデータ) (2022-11-23T18:21:09Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。