Fugu-MT 論文翻訳(概要): Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

論文の概要: Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond

arxiv url: http://arxiv.org/abs/2505.04621v1
Date: Wed, 07 May 2025 17:59:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-08 19:07:36.184745
Title: Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond
Title（参考訳）: 音響用スコア蒸留サンプリング:音源分離, 合成, およびそれ以上
Authors: Jessie Richter-Powell, Antonio Torralba, Jonathan Lorraine,
Abstract要約: 本稿では,テキスト条件付き音声拡散モデルに対するスコア蒸留サンプリング(SDS)の一般化であるAudio-SDSを紹介する。本研究では,Audio-SDSが物理的に情報を得た衝撃音のシミュレーション,FM合成パラメータの校正,即時特定音源分離を行う方法を示す。
参考スコア（独自算出の注目度）: 33.274042377037176
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce Audio-SDS, a generalization of Score Distillation Sampling (SDS) to text-conditioned audio diffusion models. While SDS was initially designed for text-to-3D generation using image diffusion, its core idea of distilling a powerful generative prior into a separate parametric representation extends to the audio domain. Leveraging a single pretrained model, Audio-SDS enables a broad range of tasks without requiring specialized datasets. In particular, we demonstrate how Audio-SDS can guide physically informed impact sound simulations, calibrate FM-synthesis parameters, and perform prompt-specified source separation. Our findings illustrate the versatility of distillation-based methods across modalities and establish a robust foundation for future work using generative priors in audio tasks.
Abstract（参考訳）: 本稿では,テキスト条件付き音声拡散モデルに対するスコア蒸留サンプリング(SDS)の一般化であるAudio-SDSを紹介する。 SDSは当初、画像拡散を用いたテキストから3D生成のために設計されたが、その中核となる考え方は、強力な生成物を別のパラメトリック表現に蒸留してオーディオ領域に拡張することである。単一の事前トレーニングモデルを利用することで、Audio-SDSは特別なデータセットを必要としない幅広いタスクを可能にします。特に、Audio-SDSは、物理的に情報を得た衝撃音シミュレーションをガイドし、FM合成パラメータを校正し、即時特定音源分離を行う方法を示す。本研究は, モーダル性を考慮した蒸留法の有用性を実証し, 音声タスクにおける生成前駆体を用いた将来的な研究のための堅牢な基盤を構築した。

関連論文リスト

USAD: Universal Speech and Audio Representation via Distillation [56.91647396619358]
Universal Speech and Audio Distillation (USAD)は、音声表現学習における統一的なアプローチである。 USADは音声、音声、音楽の様々なタイプを単一のモデルに統合する。
論文参考訳（メタデータ） (2025-06-23T17:02:00Z)
ZeroSep: Separate Anything in Audio with Zero Training [42.19808124670159]
機械が複雑な音響環境を理解するためには、音源分離が基本である。現在の教師付きディープラーニングアプローチは、強力ではあるが、広範なタスク固有のラベル付きデータの必要性によって制限されている。事前学習したテキスト誘導音声拡散モデルがこれらの制限を克服できるかどうかを検討する。ゼロショット音源分離は、事前訓練されたテキスト誘導音声拡散モデルにより純粋に達成できる。
論文参考訳（メタデータ） (2025-05-29T16:31:45Z)
Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文参考訳（メタデータ） (2024-07-16T14:11:44Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。 C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文参考訳（メタデータ） (2024-05-25T09:10:12Z)
SpecDiff-GAN: A Spectrally-Shaped Noise Diffusion GAN for Speech and Music Synthesis [0.0]
本稿では,HiFi-GANに基づくニューラルボコーダSpecDiff-GANを紹介する。いくつかのデータセットに対して,提案モデルによる音声合成と音楽合成の利点を示す。
論文参考訳（メタデータ） (2024-01-30T09:17:57Z)
Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis [35.16243386407448]
Bridge-TTSは、確立された拡散に基づくTS法において、ノイズの多いガウスをクリーンで決定論的に置き換える新しいTSシステムである。具体的には、テキスト入力から得られた潜伏表現を前もって利用し、それと地上トルス・メル・スペクトログラムの間に完全にトラクタブルなシュロディンガーブリッジを構築する。
論文参考訳（メタデータ） (2023-12-06T13:31:55Z)
Noise-Free Score Distillation [78.79226724549456]
ノイズフリースコア蒸留(NFSD)プロセスは、オリジナルのSDSフレームワークに最小限の変更を必要とする。我々は,CFG尺度を用いて,事前学習したテキスト・画像拡散モデルのより効果的な蒸留を行う。
論文参考訳（メタデータ） (2023-10-26T17:12:26Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文参考訳（メタデータ） (2023-06-17T14:16:24Z)
Leveraging Pre-trained AudioLDM for Sound Generation: A Benchmark Study [33.10311742703679]
本稿では,AudioLDMを用いた音声生成における事前学習のメリットについて検討する。本研究では,事前学習したAudioLDMの利点,特にデータ共有シナリオの利点を実証する。様々な頻繁に使用されるデータセットに対して,音生成タスクをベンチマークする。
論文参考訳（メタデータ） (2023-03-07T12:49:45Z)
A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文参考訳（メタデータ） (2021-07-25T19:23:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。