論文の概要: Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation
- arxiv url: http://arxiv.org/abs/2409.09381v1
- Date: Sat, 14 Sep 2024 09:16:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 20:57:09.139685
- Title: Text Prompt is Not Enough: Sound Event Enhanced Prompt Adapter for Target Style Audio Generation
- Title(参考訳): テキスト・プロンプトは十分ではない:ターゲットスタイルのオーディオ・ジェネレーションのためのサウンド・イベント強化・プロンプト・アダプタ
- Authors: Chenxu Xiong, Ruibo Fu, Shuchen Shi, Zhengqi Wen, Jianhua Tao, Tao Wang, Chenxing Li, Chunyu Qiang, Yuankun Xie, Xin Qi, Guanjun Li, Zizheng Yang,
- Abstract要約: マルチスタイル音声生成のための音イベント強調プロンプトアダプタ
最先端のFr'echet Distanceは26.94、KL Divergenceは1.82で、Tango、AudioLDM、AudioGenを上回っている。
デモ、コード、データセットが公開されている。
- 参考スコア(独自算出の注目度): 38.63542787205102
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current mainstream audio generation methods primarily rely on simple text prompts, often failing to capture the nuanced details necessary for multi-style audio generation. To address this limitation, the Sound Event Enhanced Prompt Adapter is proposed. Unlike traditional static global style transfer, this method extracts style embedding through cross-attention between text and reference audio for adaptive style control. Adaptive layer normalization is then utilized to enhance the model's capacity to express multiple styles. Additionally, the Sound Event Reference Style Transfer Dataset (SERST) is introduced for the proposed target style audio generation task, enabling dual-prompt audio generation using both text and audio references. Experimental results demonstrate the robustness of the model, achieving state-of-the-art Fr\'echet Distance of 26.94 and KL Divergence of 1.82, surpassing Tango, AudioLDM, and AudioGen. Furthermore, the generated audio shows high similarity to its corresponding audio reference. The demo, code, and dataset are publicly available.
- Abstract(参考訳): 現在の主流の音声生成法は、主に単純なテキストプロンプトに依存しており、しばしばマルチスタイルの音声生成に必要な微妙な詳細を捉えていない。
この制限に対処するため、Sound Event Enhanced Prompt Adapterを提案する。
従来の静的なグローバルなスタイル転送とは異なり、この方法は適応的なスタイル制御のためにテキストと参照オーディオ間のクロスアテンションを通してスタイル埋め込みを抽出する。
適応層正規化(Adaptive Layer normalization)は、複数のスタイルを表現するためにモデルの能力を高めるために使用される。
さらに、提案したターゲットスタイル音声生成タスクに対して、SERST(Sound Event Reference Style Transfer Dataset)を導入し、テキストおよびオーディオ参照の両方を用いて、デュアルプロンプト音声生成を可能にする。
実験結果から、Tango、AudioLDM、AudioGenを上回り、26.94の最先端Fr'echet Distanceと1.82のKL Divergenceを実現した。
さらに、生成されたオーディオは、対応するオーディオ参照と高い類似性を示す。
デモ、コード、データセットが公開されている。
関連論文リスト
- Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - On The Open Prompt Challenge In Conditional Audio Generation [25.178010153697976]
テキスト・トゥ・オーディオ・ジェネレーション(TTA)は、テキスト記述から音声を生成し、ペアのオーディオサンプルと手書きのテキストから学習する。
我々は、TTAモデルをブラックボックスとして扱い、2つの重要な洞察でユーザのプロンプト課題に対処する。
音声改善のために,テキスト・オーディオアライメントをマージンランキング学習によるフィードバック信号として活用することを提案する。
論文 参考訳(メタデータ) (2023-11-01T23:33:25Z) - TextrolSpeech: A Text Style Control Speech Corpus With Codec Language
Text-to-Speech Models [51.529485094900934]
リッチテキスト属性を付加した最初の大規模音声感情データセットであるTextrolSpeechを提案する。
本稿では,GPTモデルを利用した多段階プロンプトプログラミング手法を提案する。
そこで我々は,より多様なスタイルで音声を生成する必要性に対処するため,Salleと呼ばれる効率的なアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-28T09:06:32Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion
Models [65.18102159618631]
マルチモーダル生成モデリングは、テキスト・ツー・イメージとテキスト・ツー・ビデオ生成においてマイルストーンを生み出した。
高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続的なオーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。
本稿では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。
論文 参考訳(メタデータ) (2023-01-30T04:44:34Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。