論文の概要: Prosody Analysis of Audiobooks
- arxiv url: http://arxiv.org/abs/2310.06930v1
- Date: Tue, 10 Oct 2023 18:33:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 02:54:14.528296
- Title: Prosody Analysis of Audiobooks
- Title(参考訳): オーディオブックの韻律解析
- Authors: Charuta Pethe, Yunting Yin, Steven Skiena
- Abstract要約: 言語モデルを用いた物語テキストから韻律予測特性を改良したモデルを提案する。
我々の予測韻律特性は、最先端の商用TSシステムによる結果よりも、人間のオーディオブックの読み方とよく相関している。
- 参考スコア(独自算出の注目度): 11.761694686091305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-speech have made it possible to generate
natural-sounding audio from text. However, audiobook narrations involve
dramatic vocalizations and intonations by the reader, with greater reliance on
emotions, dialogues, and descriptions in the narrative. Using our dataset of 93
aligned book-audiobook pairs, we present improved models for prosody prediction
properties (pitch, volume, and rate of speech) from narrative text using
language modeling. Our predicted prosody attributes correlate much better with
human audiobook readings than results from a state-of-the-art commercial TTS
system: our predicted pitch shows a higher correlation with human reading for
22 out of the 24 books, while our predicted volume attribute proves more
similar to human reading for 23 out of the 24 books. Finally, we present a
human evaluation study to quantify the extent that people prefer
prosody-enhanced audiobook readings over commercial text-to-speech systems.
- Abstract(参考訳): 近年のテキスト音声合成の進歩により、テキストから自然な音声を生成できるようになった。
しかし、オーディオブックのナレーションには、読者による劇的な発声とイントネーションが含まれており、物語中の感情、対話、説明に依拠している。
93組の本とオーディオブックのペアのデータセットを用いて,言語モデルを用いた物語テキストから韻律予測特性(ピッチ,ボリューム,発話率)の改善モデルを提案する。
私たちの予測した韻律属性は、最先端の商用ttsシステムによる結果よりも、人間のオーディオブックの読みにかなりよく相関する: 予測されたピッチは、24冊中22冊の人間の読みと高い相関を示し、予測されたボリューム属性は、24冊中23冊の人間の読みとよりよく似ていることを証明します。
最後に,本研究では,商用音声読み上げシステムよりも韻律エンハンスドオーディオブックが好まれる程度を定量化するために,人間による評価を行った。
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。
本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。
具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文 参考訳(メタデータ) (2024-01-10T05:15:09Z) - Neural Text to Articulate Talk: Deep Text to Audiovisual Speech
Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。
NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。
モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文 参考訳(メタデータ) (2023-12-11T18:41:55Z) - Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。
提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文 参考訳(メタデータ) (2023-06-28T08:22:53Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - A Novel Scheme to classify Read and Spontaneous Speech [15.542726069501231]
本稿では,読み書き音声と自発音声を識別する新しい手法を提案する。
提案手法では,DeepSpeechオーディオ・アルファベット認識エンジンを事前訓練した。
論文 参考訳(メタデータ) (2023-06-13T11:16:52Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。
我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。
音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文 参考訳(メタデータ) (2021-12-04T01:37:22Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。