論文の概要: Evaluating Fake Music Detection Performance Under Audio Augmentations
- arxiv url: http://arxiv.org/abs/2507.10447v1
- Date: Mon, 07 Jul 2025 16:15:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.46542
- Title: Evaluating Fake Music Detection Performance Under Audio Augmentations
- Title(参考訳): 音響増幅によるフェイク音楽検出性能の評価
- Authors: Tomasz Sroka, Tomasz Wężowicz, Dominik Sidorczuk, Mateusz Modrzejewski,
- Abstract要約: 複数のシステムを用いて生成した実・合成音楽の双方からなるデータセットを構築した。
次に、様々なオーディオ変換を適用し、それらが分類精度にどのように影響するかを分析する。
我々は,近年の最先端音楽ディープフェイク検出モデルの性能を,音声拡張の有無で検証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of generative audio models, distinguishing between human-composed and generated music is becoming increasingly challenging. As a response, models for detecting fake music have been proposed. In this work, we explore the robustness of such systems under audio augmentations. To evaluate model generalization, we constructed a dataset consisting of both real and synthetic music generated using several systems. We then apply a range of audio transformations and analyze how they affect classification accuracy. We test the performance of a recent state-of-the-art musical deepfake detection model in the presence of audio augmentations. The performance of the model decreases significantly even with the introduction of light augmentations.
- Abstract(参考訳): 生成音声モデルの急速な進歩により、人間の構成した音楽と生成された音楽の区別がますます困難になりつつある。
その結果,偽楽曲検出モデルが提案されている。
そこで本研究では,このようなシステムの高機能性について検討する。
モデル一般化を評価するために,複数のシステムを用いて生成した実音楽と合成音楽の両方からなるデータセットを構築した。
次に、様々なオーディオ変換を適用し、それらが分類精度にどのように影響するかを分析する。
我々は,近年の最先端音楽ディープフェイク検出モデルの性能を,音声拡張の有無で検証する。
光増倍法を導入しても, モデルの性能は著しく低下する。
関連論文リスト
- Measuring the Robustness of Audio Deepfake Detectors [59.09338266364506]
この研究は、16の一般的な汚職に対する10のオーディオディープフェイク検出モデルの頑健さを体系的に評価する。
従来のディープラーニングモデルと最先端の基礎モデルの両方を用いて、4つのユニークな観察を行う。
論文 参考訳(メタデータ) (2025-03-21T23:21:17Z) - InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。
統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。
我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文 参考訳(メタデータ) (2025-02-28T09:58:25Z) - Meta Audiobox Aesthetics: Unified Automatic Quality Assessment for Speech, Music, and Sound [46.7144966835279]
本稿では,人間の介入なしに審美を予測できる自動システムの必要性に対処する。
人間の聴取視点を4つの異なる軸に分解する新しいガイドラインを提案する。
我々は、音声品質のより微妙な評価を提供する、ノン参照、イテムごとの予測モデルを開発し、訓練する。
論文 参考訳(メタデータ) (2025-02-07T18:15:57Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。
48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T16:34:26Z) - AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。
評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。
AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Exploiting Time-Frequency Conformers for Music Audio Enhancement [21.243039524049614]
コンフォーマーアーキテクチャに基づく音楽強調システムを提案する。
提案手法はコンフォーマーの注意機構を探索し,その性能を検証し,音楽強調作業における最善のアプローチを見出す。
論文 参考訳(メタデータ) (2023-08-24T06:56:54Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - An Initial Investigation for Detecting Vocoder Fingerprints of Fake
Audio [53.134423013599914]
本稿では,偽音声のボコーダ指紋を検出するための新しい問題を提案する。
8つの最先端ボコーダによって合成されたデータセットについて実験を行った。
論文 参考訳(メタデータ) (2022-08-20T09:23:21Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。