論文の概要: Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance
- arxiv url: http://arxiv.org/abs/2509.14934v1
- Date: Thu, 18 Sep 2025 13:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.233073
- Title: Mitigating data replication in text-to-audio generative diffusion models through anti-memorization guidance
- Title(参考訳): 音声合成拡散モデルにおける反メモ化誘導によるデータ複製の緩和
- Authors: Francisco Messina, Francesca Ronchini, Luca Comanducci, Paolo Bestagini, Fabio Antonacci,
- Abstract要約: 反記憶誘導(Anti-memorization Guidance、AMG)は、事前学習した拡散モデルのサンプリングプロセスを変更して記憶を阻害する手法である。
そこで本研究では,AMG内の3種類のガイダンスについて検討し,それぞれが生成品質を保ちながら複製を減少させるように設計された。
- 参考スコア(独自算出の注目度): 24.435000633560904
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: A persistent challenge in generative audio models is data replication, where the model unintentionally generates parts of its training data during inference. In this work, we address this issue in text-to-audio diffusion models by exploring the use of anti-memorization strategies. We adopt Anti-Memorization Guidance (AMG), a technique that modifies the sampling process of pre-trained diffusion models to discourage memorization. Our study explores three types of guidance within AMG, each designed to reduce replication while preserving generation quality. We use Stable Audio Open as our backbone, leveraging its fully open-source architecture and training dataset. Our comprehensive experimental analysis suggests that AMG significantly mitigates memorization in diffusion-based text-to-audio generation without compromising audio fidelity or semantic alignment.
- Abstract(参考訳): 生成オーディオモデルにおける永続的な課題はデータ複製であり、モデルが推論中に意図せずにトレーニングデータの一部を生成している。
本研究では,テキストから音声への拡散モデルを用いて,この問題に対処する。
我々は,事前学習した拡散モデルのサンプリングプロセスを変更する手法である反記憶誘導法(AMG)を採用する。
そこで本研究では,AMG内の3種類のガイダンスについて検討し,それぞれが生成品質を保ちながら複製を減少させるように設計された。
私たちはStable Audio Openをバックボーンとして使用し、その完全なオープンソースアーキテクチャとトレーニングデータセットを活用しています。
AMGは音声の忠実さやセマンティックアライメントを損なうことなく,拡散型テキスト・オーディオ生成における暗記を著しく軽減すると考えられる。
関連論文リスト
- Characterizing Memorization in Diffusion Language Models: Generalized Extraction and Sampling Effects [17.220195638215507]
拡散言語モデル (DLMs) は自己回帰言語モデル (ARMs) の代替として登場した。
DLMは、ARMと比較して、個人識別情報(PII)の記憶に基づくリークが著しく低い。
論文 参考訳(メタデータ) (2026-03-02T19:03:32Z) - Steering Away from Memorization: Reachability-Constrained Reinforcement Learning for Text-to-Image Diffusion [44.47036589940717]
現在の緩和戦略は、通常、暗記を減らすために画像の品質を犠牲にするか、迅速にアライメントする。
本稿では,生成の忠実さを保ちながら記憶を防止する推論時フレームワークであるReachability-Aware Diffusion Steering (RADS)を提案する。
RADSは拡散復調過程を力学系としてモデル化し、到達可能性解析の概念を適用して「後方到達管」を近似する。
論文 参考訳(メタデータ) (2026-02-24T09:07:08Z) - From Text to Talk: Audio-Language Model Needs Non-Autoregressive Joint Training [19.396162898865864]
Text-to-Talk (TtT) は、自動回帰(AR)テキスト生成と非自己回帰(NAR)音声拡散を統合した統合オーディオテキストフレームワークである。
このハイブリッド生成パラダイムをサポートするために,テキストの因果復号を強制するモダリティ対応アテンション機構を設計する。
推論中、TtTは可変長出力を柔軟に処理しながら、ブロックワイド拡散を用いてオーディオを並列に合成する。
論文 参考訳(メタデータ) (2025-09-24T12:44:26Z) - EditGen: Harnessing Cross-Attention Control for Instruction-Based Auto-Regressive Audio Editing [54.10773655199149]
自動回帰モデルにおける効率的な音声編集のためのクロスアテンション制御の活用について検討する。
画像編集手法に触発されて,横断的・自己認識的メカニズムを通じて編集をガイドするPrompt-to-Promptライクなアプローチを開発した。
論文 参考訳(メタデータ) (2025-07-15T08:44:11Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - An Inversion-based Measure of Memorization for Diffusion Models [37.9715620828388]
拡散モデルは、データの記憶をトレーニングし、著作権侵害やプライバシー侵害に関する懸念を提起する。
InvMMは,画像の複製を考慮に入れた感度潜時雑音分布の反転に基づく,インバージョンに基づく暗黙化尺度である。
InvMMはサンプル間で共振可能であり、正反対の立場から記憶の真の範囲を明らかにし、記憶がメンバーシップとどのように異なるかを示す。
論文 参考訳(メタデータ) (2024-05-09T15:32:00Z) - Diffusion Models for Audio Restoration [22.385385150594185]
本稿では拡散モデルに基づく音声復元アルゴリズムを提案する。
拡散モデルは両世界の長所を組み合わせることができ、オーディオ復元アルゴリズムを設計する機会を提供する。
拡散形式とそのクリーンな音声信号の条件付き生成への応用について説明する。
論文 参考訳(メタデータ) (2024-02-15T09:36:36Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。