論文の概要: MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers
- arxiv url: http://arxiv.org/abs/2505.13082v1
- Date: Mon, 19 May 2025 13:13:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.606581
- Title: MultiActor-Audiobook: Zero-Shot Audiobook Generation with Faces and Voices of Multiple Speakers
- Title(参考訳): Multi Actor-Audiobook:複数話者の顔と声によるゼロショットオーディオブック生成
- Authors: Kyeongman Park, Seongho Joo, Kyomin Jung,
- Abstract要約: 我々は,音声ブックを自動生成するゼロショットアプローチであるMultiActor-Audiobookを紹介した。
- 参考スコア(独自算出の注目度): 14.646968463753803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MultiActor-Audiobook, a zero-shot approach for generating audiobooks that automatically produces consistent, expressive, and speaker-appropriate prosody, including intonation and emotion. Previous audiobook systems have several limitations: they require users to manually configure the speaker's prosody, read each sentence with a monotonic tone compared to voice actors, or rely on costly training. However, our MultiActor-Audiobook addresses these issues by introducing two novel processes: (1) MSP (**Multimodal Speaker Persona Generation**) and (2) LSI (**LLM-based Script Instruction Generation**). With these two processes, MultiActor-Audiobook can generate more emotionally expressive audiobooks with a consistent speaker prosody without additional training. We compare our system with commercial products, through human and MLLM evaluations, achieving competitive results. Furthermore, we demonstrate the effectiveness of MSP and LSI through ablation studies.
- Abstract(参考訳): イントネーションや感情を含む、一貫性のある、表現力のある、話者に適した韻律を自動生成するオーディオブックを生成するゼロショットアプローチであるMultiActor-Audiobookを紹介する。
従来のオーディオブックシステムにはいくつかの制限がある: ユーザーは手動で話者の韻律を設定したり、音声アクターよりも単調な音で各文を読み取るか、高価な訓練に頼る必要がある。
MSP (***Multimodal Speaker Persona Generation**) と LSI (**LLM-based Script Instruction Generation**) である。
これら2つのプロセスにより、MultiActor-Audiobookは、追加のトレーニングなしで一貫した話者韻律で、より感情的に表現力のあるオーディオブックを生成することができる。
我々は,人間とMLLMの評価を通じて商用製品と比較し,競争力のある結果を得た。
さらに, アブレーション研究を通じて, MSPとLSIの有効性を実証した。
関連論文リスト
- Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。
11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。
本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文 参考訳(メタデータ) (2024-09-27T12:06:53Z) - Audio Flamingo: A Novel Audio Language Model with Few-Shot Learning and Dialogue Abilities [37.02115473120654]
音声を理解するために大きな言語モデル(LLM)を拡張することは、様々な現実世界のアプリケーションにとって非常に重要である。
本稿では,1)強音声理解能力を備えた新しい音声言語モデルであるAudio Flamingoを提案する。
論文 参考訳(メタデータ) (2024-02-02T18:58:34Z) - Large-Scale Automatic Audiobook Creation [38.6585398185208]
オンライン電子書籍から高品質なオーディオブックを生成するために,ニューラルテキスト音声合成の最近の進歩を活用している。
我々のシステムでは、ユーザーはオーディオブックの発話速度やスタイル、感情的なイントネーションをカスタマイズでき、望まれる声にマッチすることもできます。
この作業は、オープンライセンスのオーディオブック5万件と、ユーザが自分でカスタマイズしたオーディオブックを素早く作れるインタラクティブなデモに寄与した。
論文 参考訳(メタデータ) (2023-09-07T11:41:23Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - Investigating on Incorporating Pretrained and Learnable Speaker
Representations for Multi-Speaker Multi-Style Text-to-Speech [54.75722224061665]
本研究では,異なる話者表現を調査し,事前学習可能な話者表現を統合することを提案する。
FastSpeech 2モデルと事前訓練された話者表現と学習可能な話者表現を組み合わせることで、少数の話者に対して大きな一般化能力を示す。
論文 参考訳(メタデータ) (2021-03-06T10:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。