論文の概要: Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
- arxiv url: http://arxiv.org/abs/2505.04621v1
- Date: Wed, 07 May 2025 17:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.184745
- Title: Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
- Title(参考訳): 音響用スコア蒸留サンプリング:音源分離, 合成, およびそれ以上
- Authors: Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine,
- Abstract要約: 本稿では,テキスト条件付き音声拡散モデルに対するスコア蒸留サンプリング(SDS)の一般化であるAudio-SDSを紹介する。
本研究では,Audio-SDSが物理的に情報を得た衝撃音のシミュレーション,FM合成パラメータの校正,即時特定音源分離を行う方法を示す。
- 参考スコア(独自算出の注目度): 33.274042377037176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Audio-SDS, a generalization of Score Distillation Sampling (SDS) to text-conditioned audio diffusion models. While SDS was initially designed for text-to-3D generation using image diffusion, its core idea of distilling a powerful generative prior into a separate parametric representation extends to the audio domain. Leveraging a single pretrained model, Audio-SDS enables a broad range of tasks without requiring specialized datasets. In particular, we demonstrate how Audio-SDS can guide physically informed impact sound simulations, calibrate FM-synthesis parameters, and perform prompt-specified source separation. Our findings illustrate the versatility of distillation-based methods across modalities and establish a robust foundation for future work using generative priors in audio tasks.
- Abstract(参考訳): 本稿では,テキスト条件付き音声拡散モデルに対するスコア蒸留サンプリング(SDS)の一般化であるAudio-SDSを紹介する。
SDSは当初、画像拡散を用いたテキストから3D生成のために設計されたが、その中核となる考え方は、強力な生成物を別のパラメトリック表現に蒸留してオーディオ領域に拡張することである。
単一の事前トレーニングモデルを利用することで、Audio-SDSは特別なデータセットを必要としない幅広いタスクを可能にします。
特に、Audio-SDSは、物理的に情報を得た衝撃音シミュレーションをガイドし、FM合成パラメータを校正し、即時特定音源分離を行う方法を示す。
本研究は, モーダル性を考慮した蒸留法の有用性を実証し, 音声タスクにおける生成前駆体を用いた将来的な研究のための堅牢な基盤を構築した。
関連論文リスト
- Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and
Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。
いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文 参考訳(メタデータ) (2024-01-30T09:17:57Z) - Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。
具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文 参考訳(メタデータ) (2023-12-06T13:31:55Z) - Noise-Free Score Distillation [78.79226724549456]
ノイズフリースコア蒸留(NFSD)プロセスは、オリジナルのSDSフレームワークに最小限の変更を必要とする。
我々は,CFG尺度を用いて,事前学習したテキスト・画像拡散モデルのより効果的な蒸留を行う。
論文 参考訳(メタデータ) (2023-10-26T17:12:26Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。
本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。
様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文 参考訳(メタデータ) (2023-03-07T12:49:45Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。