Fugu-MT 論文翻訳(概要): Prosody Analysis of Audiobooks

論文の概要: Prosody Analysis of Audiobooks

arxiv url: http://arxiv.org/abs/2310.06930v2
Date: Sat, 05 Oct 2024 21:07:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 07:34:56.949424
Title: Prosody Analysis of Audiobooks
Title（参考訳）: オーディオブックの韻律解析
Authors: Charuta Pethe, Bach Pham, Felix D Childress, Yunting Yin, Steven Skiena,
Abstract要約: 言語モデルを用いた物語テキストから韻律予測特性を改良したモデルを提案する。我々の予測韻律特性は、最先端の商用TSシステムによる結果よりも、人間のオーディオブックの読み方とよく相関している。
参考スコア（独自算出の注目度）: 8.929189891250134
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in text-to-speech have made it possible to generate natural-sounding audio from text. However, audiobook narrations involve dramatic vocalizations and intonations by the reader, with greater reliance on emotions, dialogues, and descriptions in the narrative. Using our dataset of 93 aligned book-audiobook pairs, we present improved models for prosody prediction properties (pitch, volume, and rate of speech) from narrative text using language modeling. Our predicted prosody attributes correlate much better with human audiobook readings than results from a state-of-the-art commercial TTS system: our predicted pitch shows a higher correlation with human reading for 22 out of the 24 books, while our predicted volume attribute proves more similar to human reading for 23 out of the 24 books. Finally, we present a human evaluation study to quantify the extent that people prefer prosody-enhanced audiobook readings over commercial text-to-speech systems.
Abstract（参考訳）: 近年のテキスト音声合成の進歩により、テキストから自然な音声を生成できるようになった。しかし、オーディオブックのナレーションには、読者による劇的な発声とイントネーションが含まれており、物語における感情、対話、説明に大きく依存している。 93組の本とオーディオブックのペアのデータセットを用いて,言語モデルを用いた物語テキストから韻律予測特性(ピッチ,ボリューム,発話率)を改良したモデルを提案する。我々の予測韻律特性は、現在最先端の商用TSSシステムによる結果よりも、人間のオーディオブックの読み方がずっとよく相関している: 予測ピッチは、24冊中22冊において、人間の読みと高い相関を示す。最後に,商業用テキスト音声システムよりも韻律強調音声ブックを好む程度を定量的に評価する。

関連論文リスト

VisualSpeech: Enhance Prosody with Visual Context in TTS [1.643629306994231]
本稿では,韻律予測を強化するために視覚コンテキストを統合する可能性について検討する。プロソディ生成を改善するために,視覚情報とテキスト情報の両方を組み込んだ新しいモデルVisualSpeechを提案する。
論文参考訳（メタデータ） (2025-01-31T16:16:52Z)
Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T20:27:34Z)
Learning Audio Concepts from Counterfactual Natural Language [34.118579918018725]
本研究では,音声領域における因果推論と反事実解析を紹介する。本モデルは,人間の注釈付き参照テキストからの音響特性と音源情報について考察する。具体的には、オープンエンド言語に基づく音声検索タスクにおけるトップ1の精度が43%以上向上した。
論文参考訳（メタデータ） (2024-01-10T05:15:09Z)
Neural Text to Articulate Talk: Deep Text to Audiovisual Speech Synthesis achieving both Auditory and Photo-realism [26.180371869137257]
会話顔生成における最先端技術は、主にリップシンキングに焦点を当て、音声クリップに条件付けされている。 NEUral Text to ARticulate Talk (NEUTART) は、音声視覚機能空間を用いた音声合成システムである。モデルは、人間のような調音と、よく同期されたオーディオヴィジュアルストリームを備えた、フォトリアリスティックなトーキングフェイスビデオを生成する。
論文参考訳（メタデータ） (2023-12-11T18:41:55Z)
Text-driven Talking Face Synthesis by Reprogramming Audio-driven Models [64.14812728562596]
本稿では,事前学習した音声駆動音声合成モデルをテキスト駆動で動作させる手法を提案する。提供されたテキスト文を記述した顔ビデオを簡単に生成できる。
論文参考訳（メタデータ） (2023-06-28T08:22:53Z)
AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。 AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文参考訳（メタデータ） (2023-06-22T14:37:54Z)
Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文参考訳（メタデータ） (2023-06-21T05:11:39Z)
A Novel Scheme to classify Read and Spontaneous Speech [15.542726069501231]
本稿では,読み書き音声と自発音声を識別する新しい手法を提案する。提案手法では,DeepSpeechオーディオ・アルファベット認識エンジンを事前訓練した。
論文参考訳（メタデータ） (2023-06-13T11:16:52Z)
Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文参考訳（メタデータ） (2022-03-31T17:57:10Z)
Joint Audio-Text Model for Expressive Speech-Driven 3D Facial Animation [46.8780140220063]
本稿では,表情駆動型3次元顔画像の文脈情報を取得するための共同音声テキストモデルを提案する。我々の仮説は、音声と強く相関しない上面表現のバリエーションを曖昧にすることができるというものである。音声と音声の同期を保ちながら現実的な表情を合成できることを示す。
論文参考訳（メタデータ） (2021-12-04T01:37:22Z)
Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文参考訳（メタデータ） (2021-06-15T18:03:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。