論文の概要: WavJourney: Compositional Audio Creation with Large Language Models
- arxiv url: http://arxiv.org/abs/2307.14335v1
- Date: Wed, 26 Jul 2023 17:54:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 11:31:23.656319
- Title: WavJourney: Compositional Audio Creation with Large Language Models
- Title(参考訳): WavJourney: 大きな言語モデルによる作曲オーディオ作成
- Authors: Xubo Liu, Zhongkai Zhu, Haohe Liu, Yi Yuan, Meng Cui, Qiushi Huang,
Jinhua Liang, Yin Cao, Qiuqiang Kong, Mark D. Plumbley, Wenwu Wang
- Abstract要約: We present WavJourney, a system that leverageing Large Language Models to connect various audio model for audio content generation。
WavJourneyはまずLLMに、オーディオストーリーテリング専用の構造化されたスクリプトを作成するよう促している。
オーディオの概念的表現として、オーディオスクリプトは人間のエンゲージメントに対する対話的で解釈可能な理論的根拠を提供する。
我々は、SF、教育、ラジオプレイなど、様々な現実のシナリオにおいて、WavJourneyの実用性を実証する。
- 参考スコア(独自算出の注目度): 52.174141080518254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown great promise in integrating diverse
expert models to tackle intricate language and vision tasks. Despite their
significance in advancing the field of Artificial Intelligence Generated
Content (AIGC), their potential in intelligent audio content creation remains
unexplored. In this work, we tackle the problem of creating audio content with
storylines encompassing speech, music, and sound effects, guided by text
instructions. We present WavJourney, a system that leverages LLMs to connect
various audio models for audio content generation. Given a text description of
an auditory scene, WavJourney first prompts LLMs to generate a structured
script dedicated to audio storytelling. The audio script incorporates diverse
audio elements, organized based on their spatio-temporal relationships. As a
conceptual representation of audio, the audio script provides an interactive
and interpretable rationale for human engagement. Afterward, the audio script
is fed into a script compiler, converting it into a computer program. Each line
of the program calls a task-specific audio generation model or computational
operation function (e.g., concatenate, mix). The computer program is then
executed to obtain an explainable solution for audio generation. We demonstrate
the practicality of WavJourney across diverse real-world scenarios, including
science fiction, education, and radio play. The explainable and interactive
design of WavJourney fosters human-machine co-creation in multi-round
dialogues, enhancing creative control and adaptability in audio production.
WavJourney audiolizes the human imagination, opening up new avenues for
creativity in multimedia content creation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複雑な言語とビジョンタスクに取り組むために多様な専門家モデルを統合することに大きな期待を示している。
人工知能生成コンテンツ(AIGC: Artificial Intelligence Generated Content)の分野を推し進めることの重要性にもかかわらず、インテリジェントなオーディオコンテンツ作成におけるそのポテンシャルは未解明のままである。
そこで本研究では,音声,音楽,音響効果を含むストーリーラインを用いたテキスト指示による音声コンテンツ作成の問題に取り組む。
llmを利用して様々なオーディオモデルを音声コンテンツ生成につなげるシステムwavjourneyを提案する。
聴覚シーンのテキスト記述が与えられると、wavjourneyはまずllmsに音声ストーリーテリング専用の構造化スクリプトを生成するように促す。
オーディオスクリプトは、その時空間関係に基づいて構成された多様なオーディオ要素を含む。
音声の概念表現として、音声スクリプトは対話的で解釈可能な人間の関与の根拠を提供する。
その後、オーディオスクリプトをスクリプトコンパイラに供給し、それをコンピュータプログラムに変換する。
プログラムの各行はタスク固有の音声生成モデルまたは計算操作関数(例えば、連結、混合)を呼び出します。
そして、コンピュータプログラムを実行し、音声生成のための説明可能な解を得る。
我々は,sf,教育,ラジオプレイなど,現実世界のさまざまなシナリオにおけるwavjourneyの実用性を示す。
WavJourneyの説明可能なインタラクティブなデザインは、マルチラウンド対話における人間と機械の共創を促進し、オーディオ制作における創造的制御と適応性を高める。
WavJourneyは人間の想像力をオーディオ化し、マルチメディアコンテンツの創造性のための新たな道を開く。
関連論文リスト
- Tell What You Hear From What You See -- Video to Audio Generation Through Text [17.95017332858846]
VATTは、ビデオとオプションのテキストプロンプトを入力として取り、オーディオとオプションのテキスト記述を生成するマルチモーダル生成フレームワークである。
VATTは、音声キャプションを通じてビデオのテキストプロンプトを推奨するだけでなく、テキストによる制御可能なビデオ音声生成を可能にする。
論文 参考訳(メタデータ) (2024-11-08T16:29:07Z) - Audio-Agent: Leveraging LLMs For Audio Generation, Editing and Composition [72.22243595269389]
本稿では,テキストやビデオの入力に基づく音声生成,編集,合成のためのフレームワークであるAudio-Agentを紹介する。
VTA(Video-to-audio)タスクでは、既存のほとんどの手法では、ビデオイベントと生成されたオーディオを同期させるタイムスタンプ検出器のトレーニングが必要である。
論文 参考訳(メタデータ) (2024-10-04T11:40:53Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。