論文の概要: Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance
- arxiv url: http://arxiv.org/abs/2509.14934v1
- Date: Thu, 18 Sep 2025 13:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.233073
- Title: Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance
- Title(参考訳): 音声合成拡散モデルにおける反メモ化誘導によるデータ複製の緩和
- Authors: Francisco Messina, Francesca Ronchini, Luca Comanducci, Paolo Bestagini, Fabio Antonacci,
- Abstract要約: 反記憶誘導(Anti-memorization Guidance、AMG)は、事前学習した拡散モデルのサンプリングプロセスを変更して記憶を阻害する手法である。
そこで本研究では,AMG内の3種類のガイダンスについて検討し,それぞれが生成品質を保ちながら複製を減少させるように設計された。
- 参考スコア(独自算出の注目度): 24.435000633560904
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A persistent challenge in generative audio models is data replication, where the model unintentionally generates parts of its training data during inference. In this work, we address this issue in text-to-audio diffusion models by exploring the use of anti-memorization strategies. We adopt Anti-Memorization Guidance (AMG), a technique that modifies the sampling process of pre-trained diffusion models to discourage memorization. Our study explores three types of guidance within AMG, each designed to reduce replication while preserving generation quality. We use Stable Audio Open as our backbone, leveraging its fully open-source architecture and training dataset. Our comprehensive experimental analysis suggests that AMG significantly mitigates memorization in diffusion-based text-to-audio generation without compromising audio fidelity or semantic alignment.
- Abstract(参考訳): 生成オーディオモデルにおける永続的な課題はデータ複製であり、モデルが推論中に意図せずにトレーニングデータの一部を生成している。
本研究では,テキストから音声への拡散モデルを用いて,この問題に対処する。
我々は,事前学習した拡散モデルのサンプリングプロセスを変更する手法である反記憶誘導法(AMG)を採用する。
そこで本研究では,AMG内の3種類のガイダンスについて検討し,それぞれが生成品質を保ちながら複製を減少させるように設計された。
私たちはStable Audio Openをバックボーンとして使用し、その完全なオープンソースアーキテクチャとトレーニングデータセットを活用しています。
AMGは音声の忠実さやセマンティックアライメントを損なうことなく,拡散型テキスト・オーディオ生成における暗記を著しく軽減すると考えられる。
関連論文リスト
- Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - An Inversion-based Measure of Memorization for Diffusion Models [37.9715620828388]
拡散モデルは、データの記憶をトレーニングし、著作権侵害やプライバシー侵害に関する懸念を提起する。
InvMMは,画像の複製を考慮に入れた感度潜時雑音分布の反転に基づく,インバージョンに基づく暗黙化尺度である。
InvMMはサンプル間で共振可能であり、正反対の立場から記憶の真の範囲を明らかにし、記憶がメンバーシップとどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。
拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。
拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文 参考訳(メタデータ) (2024-02-15T09:36:36Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。