論文の概要: DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.06027v1
- Date: Sun, 07 Sep 2025 12:06:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.825527
- Title: DreamAudio: Customized Text-to-Audio Generation with Diffusion Models
- Title(参考訳): DreamAudio: 拡散モデルによるカスタマイズされたテキスト・ツー・オーディオ生成
- Authors: Yi Yuan, Xubo Liu, Haohe Liu, Xiyuan Kang, Zhuo Chen, Yuxuan Wang, Mark D. Plumbley, Wenwu Wang,
- Abstract要約: 我々はDreamAudio for customd text-to-audio generation (CTTA)を提案する。
本稿では,ユーザが提供する音声生成のための参照概念から,モデルが聴覚情報を識別できるようにするための新しいフレームワークを提案する。
パーソナライズされた音声イベントを含む参照音声サンプルがいくつかあるので,本システムはこれらのイベントを含む新しいオーディオサンプルを生成することができる。
- 参考スコア(独自算出の注目度): 38.963121219471354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the development of large-scale diffusion-based and language-modeling-based generative models, impressive progress has been achieved in text-to-audio generation. Despite producing high-quality outputs, existing text-to-audio models mainly aim to generate semantically aligned sound and fall short on precisely controlling fine-grained acoustic characteristics of specific sounds. As a result, users that need specific sound content may find it challenging to generate the desired audio clips. In this paper, we present DreamAudio for customized text-to-audio generation (CTTA). Specifically, we introduce a new framework that is designed to enable the model to identify auditory information from user-provided reference concepts for audio generation. Given a few reference audio samples containing personalized audio events, our system can generate new audio samples that include these specific events. In addition, two types of datasets are developed for training and testing the customized systems. The experiments show that the proposed model, DreamAudio, generates audio samples that are highly consistent with the customized audio features and aligned well with the input text prompts. Furthermore, DreamAudio offers comparable performance in general text-to-audio tasks. We also provide a human-involved dataset containing audio events from real-world CTTA cases as the benchmark for customized generation tasks.
- Abstract(参考訳): 大規模拡散モデルと言語モデルに基づく生成モデルの開発により、テキスト・オーディオ生成において顕著な進歩が達成されている。
高品質な出力を生成するにもかかわらず、既存のテキスト音声モデルは、主に意味的に整合した音を生成し、特定の音のきめ細かい音響特性を正確に制御することを目的としている。
その結果、特定の音声コンテンツを必要とするユーザーは、所望の音声クリップを生成するのが難しくなる可能性がある。
本稿では,DreamAudio for customd text-to-audio generation (CTTA)を提案する。
具体的には、ユーザが提供するオーディオ生成のための参照概念から、モデルが聴覚情報を識別できるようにデザインされた新しいフレームワークを提案する。
パーソナライズされた音声イベントを含む参照音声サンプルがいくつかあるので,本システムはこれらのイベントを含む新しいオーディオサンプルを生成することができる。
さらに、カスタマイズされたシステムのトレーニングとテストのための2種類のデータセットも開発されている。
実験の結果,提案したモデルであるDreamAudioは,カスタマイズされた音声特徴と高度に整合した音声サンプルを生成し,入力テキストプロンプトと整合することがわかった。
さらに、DreamAudioは一般的なテキスト音声タスクで同等のパフォーマンスを提供する。
また、実世界のCTTAケースからの音声イベントを、カスタマイズされた生成タスクのベンチマークとして含む人間関係データセットも提供する。
関連論文リスト
- Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization [70.13218512896032]
テキストプロンプトから音声を生成することは、音楽や映画産業におけるそのようなプロセスの重要な側面である。
我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。
我々は、各プロンプトが勝者の音声出力と、拡散モデルが学習するための敗者音声出力を持つ選好データセットを合成的に作成する。
論文 参考訳(メタデータ) (2024-04-15T17:31:22Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Retrieval-Augmented Text-to-Audio Generation [36.328134891428085]
本稿では,AudioLDMのような最先端モデルが,その世代性能に偏っていることを示す。
本稿では,TTAモデルに対する単純な検索拡張手法を提案する。
Re-AudioLDMは、複雑なシーン、稀なオーディオクラス、さらには目に見えないオーディオタイプに対して、現実的なオーディオを生成することができる。
論文 参考訳(メタデータ) (2023-09-14T22:35:39Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。