論文の概要: Large-Scale Automatic Audiobook Creation
- arxiv url: http://arxiv.org/abs/2309.03926v1
- Date: Thu, 7 Sep 2023 11:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 17:06:35.258547
- Title: Large-Scale Automatic Audiobook Creation
- Title(参考訳): 大規模自動オーディオブック作成
- Authors: Brendan Walsh, Mark Hamilton, Greg Newby, Xi Wang, Serena Ruan, Sheng
Zhao, Lei He, Shaofei Zhang, Eric Dettinger, William T. Freeman, Markus
Weimer
- Abstract要約: オンライン電子書籍から高品質なオーディオブックを生成するために,ニューラルテキスト音声合成の最近の進歩を活用している。
我々のシステムでは、ユーザーはオーディオブックの発話速度やスタイル、感情的なイントネーションをカスタマイズでき、望まれる声にマッチすることもできます。
この作業は、オープンライセンスのオーディオブック5万件と、ユーザが自分でカスタマイズしたオーディオブックを素早く作れるインタラクティブなデモに寄与した。
- 参考スコア(独自算出の注目度): 38.6585398185208
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An audiobook can dramatically improve a work of literature's accessibility
and improve reader engagement. However, audiobooks can take hundreds of hours
of human effort to create, edit, and publish. In this work, we present a system
that can automatically generate high-quality audiobooks from online e-books. In
particular, we leverage recent advances in neural text-to-speech to create and
release thousands of human-quality, open-license audiobooks from the Project
Gutenberg e-book collection. Our method can identify the proper subset of
e-book content to read for a wide collection of diversely structured books and
can operate on hundreds of books in parallel. Our system allows users to
customize an audiobook's speaking speed and style, emotional intonation, and
can even match a desired voice using a small amount of sample audio. This work
contributed over five thousand open-license audiobooks and an interactive demo
that allows users to quickly create their own customized audiobooks. To listen
to the audiobook collection visit \url{https://aka.ms/audiobook}.
- Abstract(参考訳): オーディオブックは文学のアクセシビリティを劇的に向上させ、読者エンゲージメントを向上させる。
しかしオーディオブックは、作成、編集、出版に数百時間を要する可能性がある。
本稿では,オンライン電子書籍から高品質オーディオブックを自動生成するシステムを提案する。
特に、ニューラルテキストから音声への最近の進歩を活用して、Project Gutenbergの電子書籍コレクションから、何千もの品質の高いオープンライセンスオーディオブックを作成、リリースしています。
本手法では,電子書籍コンテンツの適切なサブセットを同定し,多種多様な構造化された書籍を並列に処理することができる。
本システムでは,音声ブックの発話速度とスタイル,感情的イントネーションをカスタマイズでき,少量のサンプル音声を用いて所望の音声とマッチングすることもできる。
この研究は、5,000以上のオープンライセンスオーディオブックと、ユーザーがカスタマイズしたオーディオブックを素早く作成できるインタラクティブなデモに寄与した。
オーディオブックコレクションの訪問を聞くには、 \url{https://aka.ms/audiobook}。
関連論文リスト
- Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Qwen-Audio: Advancing Universal Audio Understanding via Unified
Large-Scale Audio-Language Models [98.34889301515412]
我々はQwen-Audioモデルを開発し、30以上のタスクと様々なオーディオタイプをカバーするために、事前学習を拡大することで制限に対処する。
Qwen-Audioは、タスク固有の微調整を必要とせずに、様々なベンチマークタスクで素晴らしいパフォーマンスを実現している。
さらにQwen-Audio-Chatを開発し、様々なオーディオやテキスト入力からの入力を可能にし、マルチターン対話を可能にし、様々なオーディオ中心のシナリオをサポートする。
論文 参考訳(メタデータ) (2023-11-14T05:34:50Z) - Prosody Analysis of Audiobooks [8.929189891250134]
言語モデルを用いた物語テキストから韻律予測特性を改良したモデルを提案する。
我々の予測韻律特性は、最先端の商用TSシステムによる結果よりも、人間のオーディオブックの読み方とよく相関している。
論文 参考訳(メタデータ) (2023-10-10T18:33:47Z) - WavJourney: Compositional Audio Creation with Large Language Models [38.39551216587242]
We present WavJourney, a novel framework that leverages Large Language Models to connect various audio model for audio creation。
WavJourneyを使えば、ユーザーはテキストによる説明だけで様々なオーディオ要素でストーリーテリングオーディオコンテンツを作成できる。
We show that WavJourney are capable to synthesize real audio aligned with textual-description semantic, spatial and temporal conditions。
論文 参考訳(メタデータ) (2023-07-26T17:54:04Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - GigaSpeech: An Evolving, Multi-domain ASR Corpus with 10,000 Hours of
Transcribed Audio [88.20960848885575]
GigaSpeechは英語の多分野音声認識コーパスで、教師あり訓練に適した高品質なラベル付きオーディオが1万時間ある。
約4万時間の音声が、まずオーディオブック、ポッドキャスト、YouTubeから収集され、読み書きと自発的な話し方の両方をカバーする。
システムトレーニングのために、GigaSpeechは10h, 250h, 1000h, 2500h, 10000hの5つのサブセットを提供する。
論文 参考訳(メタデータ) (2021-06-13T04:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。