論文の概要: VoiceLDM: Text-to-Speech with Environmental Context
- arxiv url: http://arxiv.org/abs/2309.13664v1
- Date: Sun, 24 Sep 2023 15:20:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 18:24:42.294979
- Title: VoiceLDM: Text-to-Speech with Environmental Context
- Title(参考訳): VoiceLDM:環境に配慮したテキスト音声
- Authors: Yeonghyeon Lee, Inmo Yeon, Juhan Nam, Joon Son Chung
- Abstract要約: VoiceLDMは、2つの異なる自然言語のプロンプトを正確に追従するオーディオを生成するために設計されたモデルである。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
我々は,VoiceLDMが両入力条件に整合した可塑性音声を生成することができることを示す。
- 参考スコア(独自算出の注目度): 22.29992463094861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents VoiceLDM, a model designed to produce audio that
accurately follows two distinct natural language text prompts: the description
prompt and the content prompt. The former provides information about the
overall environmental context of the audio, while the latter conveys the
linguistic content. To achieve this, we adopt a text-to-audio (TTA) model based
on latent diffusion models and extend its functionality to incorporate an
additional content prompt as a conditional input. By utilizing pretrained
contrastive language-audio pretraining (CLAP) and Whisper, VoiceLDM is trained
on large amounts of real-world audio without manual annotations or
transcriptions. Additionally, we employ dual classifier-free guidance to
further enhance the controllability of VoiceLDM. Experimental results
demonstrate that VoiceLDM is capable of generating plausible audio that aligns
well with both input conditions, even surpassing the speech intelligibility of
the ground truth audio on the AudioCaps test set. Furthermore, we explore the
text-to-speech (TTS) and zero-shot text-to-audio capabilities of VoiceLDM and
show that it achieves competitive results. Demos and code are available at
https://voiceldm.github.io.
- Abstract(参考訳): 本稿では,2つの異なる自然言語テキストプロンプト(記述プロンプトとコンテンツプロンプト)を正確に追従する音声生成モデルであるvoiceldmを提案する。
前者は音声の全体的な環境状況に関する情報を提供し、後者は言語内容を伝える。
これを実現するために,潜在拡散モデルに基づくtext-to-audio(tta)モデルを採用し,条件付き入力として追加コンテンツプロンプトを組み込む機能拡張を行った。
事前訓練されたコントラスト言語事前訓練(CLAP)とWhisperを利用することで、VoiceLDMは手動の注釈や書き起こしなしに大量の現実世界のオーディオで訓練される。
さらに、VoiceLDMの制御性を高めるために、二重分類器フリーガイダンスを用いる。
実験の結果、voiceldmは両方の入力条件に合致する有望な音声を生成することができ、audiocapsテストセットのグランド・トゥルート・オーディオの音声理解性を超えていることがわかった。
さらに、VoiceLDMのテキスト音声合成機能(TTS)とゼロショット音声合成機能について検討し、競合する結果が得られることを示す。
デモとコードはhttps://voiceldm.github.ioで入手できる。
関連論文リスト
- Zero-shot audio captioning with audio-language model guidance and audio
context keywords [59.58331215337357]
タスク固有の訓練を必要とせず、テキストキャプション内の一般的な音声信号を要約する新しいフレームワークであるZerAuCapを提案する。
本フレームワークは,事前学習された大言語モデル(LLM)を用いて,事前学習された音声モデルによって指導されたテキストを生成し,キャプションを生成する。
提案手法は,AudioCaps と Clotho のデータセットにゼロショット音声キャプションを付加することで,最先端の音声キャプションを実現する。
論文 参考訳(メタデータ) (2023-11-14T18:55:48Z) - LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT [65.69648099999439]
Generative Pre-trained Transformer (GPT) モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを実現している。
音声認識, 理解, 生成のための新しい音声・テキストGPTベースのLLMであるLauraGPTを提案する。
論文 参考訳(メタデータ) (2023-10-07T03:17:59Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - AudioLDM: Text-to-Audio Generation with Latent Diffusion Models [35.703877904270726]
テキスト音声合成システムTTA(Text-to-audio)が最近注目されている。
本研究では,音声空間上に構築されたTTAシステムであるAudioLDMを提案する。
単一のGPUでAudioCapsでトレーニングされたAudioLDMは、客観的メトリクスと主観的メトリクスの両方で測定された最先端のTTAパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-29T17:48:17Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。