論文の概要: Membership and Dataset Inference Attacks on Large Audio Generative Models
- arxiv url: http://arxiv.org/abs/2512.09654v1
- Date: Wed, 10 Dec 2025 13:50:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.5406
- Title: Membership and Dataset Inference Attacks on Large Audio Generative Models
- Title(参考訳): 大規模音響生成モデルにおけるメンバーシップとデータセット推論攻撃
- Authors: Jakub Proboszcz, Paweł Kochanski, Karol Korszun, Donato Crisostomi, Giorgio Strano, Emanuele Rodolà, Kamil Deja, Jan Dubinski,
- Abstract要約: 生成的オーディオモデルは、しばしば芸術作品や商業作品の膨大なコーパスで訓練される。
中心的な疑問は、アーティストの素材がトレーニングに含まれているかどうかを確実に検証できるかどうかであり、それによって著作権保有者がコンテンツを保護できる手段を提供する。
本研究では,オープンソースの生成音声モデルに対するメンバシップ推論攻撃による検証の実現可能性について検討する。
- 参考スコア(独自算出の注目度): 17.763094810756247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative audio models, based on diffusion and autoregressive architectures, have advanced rapidly in both quality and expressiveness. This progress, however, raises pressing copyright concerns, as such models are often trained on vast corpora of artistic and commercial works. A central question is whether one can reliably verify if an artist's material was included in training, thereby providing a means for copyright holders to protect their content. In this work, we investigate the feasibility of such verification through membership inference attacks (MIA) on open-source generative audio models, which attempt to determine whether a specific audio sample was part of the training set. Our empirical results show that membership inference alone is of limited effectiveness at scale, as the per-sample membership signal is weak for models trained on large and diverse datasets. However, artists and media owners typically hold collections of works rather than isolated samples. Building on prior work in text and vision domains, in this work we focus on dataset inference (DI), which aggregates diverse membership evidence across multiple samples. We find that DI is successful in the audio domain, offering a more practical mechanism for assessing whether an artist's works contributed to model training. Our results suggest DI as a promising direction for copyright protection and dataset accountability in the era of large audio generative models.
- Abstract(参考訳): 拡散と自己回帰アーキテクチャに基づく生成音声モデルは、品質と表現性の両方において急速に進歩している。
しかし、この進歩は著作権の懸念を高め、そのようなモデルは芸術作品や商業作品の膨大なコーパスでしばしば訓練される。
中心的な疑問は、アーティストの素材がトレーニングに含まれているかどうかを確実に検証できるかどうかであり、それによって著作権保有者がコンテンツを保護できる手段を提供する。
本研究では,特定のオーディオサンプルがトレーニングセットに含まれるか否かを判断するために,オープンソース生成音声モデル上でのMIA(メンバシップ推論攻撃)による検証の実現可能性を検討する。
実験結果から,大規模かつ多様なデータセットでトレーニングされたモデルに対して,サンプル単位のメンバシップ信号が弱いため,メンバシップ推定だけでは大規模な有効性が限られていることが示された。
しかし、アーティストやメディアのオーナーは孤立したサンプルではなく、作品のコレクションを持っているのが普通である。
本研究では、テキストと視覚領域における事前の作業に基づいて、複数のサンプルにまたがる多様なメンバーシップ証拠を集約するデータセット推論(DI)に焦点を当てる。
私たちはDIがオーディオ分野で成功しており、アーティストの作品がモデルトレーニングに寄与するかどうかを評価するためのより実践的なメカニズムを提供していることに気付きました。
以上の結果から,DIは大規模な音声生成モデルの時代において,著作権保護とデータセットのアカウンタビリティ向上のための有望な方向性である可能性が示唆された。
関連論文リスト
- Pretrained Conformers for Audio Fingerprinting and Retrieval [0.0]
我々はコンバータベースのエンコーダを訓練し、小さなセグメントのオーディオに対して独自の埋め込みを生成することができる。
埋め込みを生成するために3秒の音声のみを使用しながら、音声検索タスクの最先端結果を得る。
論文 参考訳(メタデータ) (2025-08-15T17:19:09Z) - Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion
Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。
既存の拡散に基づく手法は、ビデオと音声を別々に生成する。
本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文 参考訳(メタデータ) (2024-02-27T17:57:04Z) - AudioLDM 2: Learning Holistic Audio Generation with Self-supervised Pretraining [46.22290575167155]
本稿では, 音声, 音楽, 音響効果生成のための同じ学習手法を用いた枠組みを提案する。
私たちのフレームワークでは、LOA(Language of Audio)と呼ばれる音声の一般的な表現を導入しています。
論文 参考訳(メタデータ) (2023-08-10T17:55:13Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - Audio ALBERT: A Lite BERT for Self-supervised Learning of Audio
Representation [51.37980448183019]
本稿では,自己教師型音声表現モデルの簡易版であるAudio ALBERTを提案する。
我々は、Audio ALBERTが、下流タスクにおいて、これらの巨大なモデルと競合する性能を達成することができることを示す。
探索実験において、潜在表現は、最後の層よりも音素と話者のリッチな情報をエンコードすることがわかった。
論文 参考訳(メタデータ) (2020-05-18T10:42:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。