論文の概要: WavJourney: Compositional Audio Creation with Large Language Models
- arxiv url: http://arxiv.org/abs/2307.14335v2
- Date: Sun, 26 Nov 2023 14:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:24:28.725489
- Title: WavJourney: Compositional Audio Creation with Large Language Models
- Title(参考訳): WavJourney: 大きな言語モデルによる作曲オーディオ作成
- Authors: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang,
Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
- Abstract要約: We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
- 参考スコア(独自算出の注目度): 38.39551216587242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite breakthroughs in audio generation models, their capabilities are
often confined to domain-specific conditions such as speech transcriptions and
audio captions. However, real-world audio creation aims to generate harmonious
audio containing various elements such as speech, music, and sound effects with
controllable conditions, which is challenging to address using existing audio
generation systems. We present WavJourney, a novel framework that leverages
Large Language Models (LLMs) to connect various audio models for audio
creation. WavJourney allows users to create storytelling audio content with
diverse audio elements simply from textual descriptions. Specifically, given a
text instruction, WavJourney first prompts LLMs to generate an audio script
that serves as a structured semantic representation of audio elements. The
audio script is then converted into a computer program, where each line of the
program calls a task-specific audio generation model or computational operation
function. The computer program is then executed to obtain a compositional and
interpretable solution for audio creation. Experimental results suggest that
WavJourney is capable of synthesizing realistic audio aligned with
textually-described semantic, spatial and temporal conditions, achieving
state-of-the-art results on text-to-audio generation benchmarks. Additionally,
we introduce a new multi-genre story benchmark. Subjective evaluations
demonstrate the potential of WavJourney in crafting engaging storytelling audio
content from text. We further demonstrate that WavJourney can facilitate
human-machine co-creation in multi-round dialogues. To foster future research,
the code and synthesized audio are available at:
https://audio-agi.github.io/WavJourney_demopage/.
- Abstract(参考訳): 音声生成モデルの進歩にもかかわらず、その能力は音声の書き起こしや音声キャプションのようなドメイン固有の条件に限られることが多い。
しかし、現実の音声生成は、音声、音楽、音響効果などの様々な要素を含む調和した音声を制御可能な条件で生成することを目的としており、既存の音声生成システムでは対処が難しい。
本稿では,大規模言語モデル(llms)を活用した新しいフレームワークであるwavjourneyを提案する。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
具体的には、テキスト命令が与えられた場合、WavJourney はまず LLM に対して、オーディオ要素の構造的意味表現として機能するオーディオスクリプトを生成するよう促す。
音声スクリプトはコンピュータプログラムに変換され、プログラムの各行はタスク固有のオーディオ生成モデルまたは計算操作関数を呼び出す。
そして、コンピュータプログラムを実行し、音声生成のための構成的で解釈可能なソリューションを得る。
実験結果から,WavJourneyはテキスト記述された意味的,空間的,時間的条件に整合した現実的な音声を合成し,テキストから音声生成のベンチマークで最先端の結果が得られることが示唆された。
さらに,新しいマルチジャンル・ストーリー・ベンチマークを導入する。
主観評価はWavJourneyがテキストから魅力的なストーリーテリング音声コンテンツを制作する可能性を示している。
さらにwavjourneyがマルチラウンド対話における人間と機械の共創を促進することを実証する。
今後の研究を促進するため、コードと合成オーディオはhttps://audio-agi.github.io/wavjourney_demopage/で入手できる。
関連論文リスト
- Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。