Fugu-MT 論文翻訳(概要): Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for Personalized Spontaneous Speech Synthesis

論文の概要: Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for Personalized Spontaneous Speech Synthesis

arxiv url: http://arxiv.org/abs/2210.07559v1
Date: Fri, 14 Oct 2022 06:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 17:35:47.079977
Title: Empirical Study Incorporating Linguistic Knowledge on Filled Pauses for Personalized Spontaneous Speech Synthesis
Title（参考訳）: パーソナライズされた自発音声合成のためのパウス文の言語知識を取り入れた実証的研究
Authors: Yuta Matsunaga, Takaaki Saeki, Shinnosuke Takamichi and Hiroshi Saruwatari
Abstract要約: 個人の声の音色と発話の拡散の両方をクローンできるパーソナライズされた自発音声合成に焦点を当てる。複数話者コーパスで学習した非個人化外部充満停止予測器を用いた音声合成手法を開発した。
参考スコア（独自算出の注目度）: 39.07197732404122
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present a comprehensive empirical study for personalized spontaneous speech synthesis on the basis of linguistic knowledge. With the advent of voice cloning for reading-style speech synthesis, a new voice cloning paradigm for human-like and spontaneous speech synthesis is required. We, therefore, focus on personalized spontaneous speech synthesis that can clone both the individual's voice timbre and speech disfluency. Specifically, we deal with filled pauses, a major source of speech disfluency, which is known to play an important role in speech generation and communication in psychology and linguistics. To comparatively evaluate personalized filled pause insertion and non-personalized filled pause prediction methods, we developed a speech synthesis method with a non-personalized external filled pause predictor trained with a multi-speaker corpus. The results clarify the position-word entanglement of filled pauses, i.e., the necessity of precisely predicting positions for naturalness and the necessity of precisely predicting words for individuality on the evaluation of synthesized speech.
Abstract（参考訳）: 本稿では,言語知識に基づく自発音声合成のための包括的実証研究を行う。読み上げ型音声合成のための音声クローニングの出現に伴い, 音声合成のための新しい音声クローニングパラダイムが求められている。そこで我々は,個人の音声音色と音声不均一性の両方をクローンできる自発的音声合成に焦点をあてた。具体的には, 言語・心理学における音声生成・コミュニケーションにおいて重要な役割を担っていることで知られる, 音声不流動の主な原因であるポーズの充足を扱う。パーソナライズドフィルドポーズ挿入法と非パーソナライズドフィルドポーズ予測法を比較し,マルチスピーカーコーパスで学習した非パーソナライズド外部フィルドポーズ予測器を用いた音声合成法を開発した。本研究は, 合成音声の評価において, 自然性のための位置を正確に予測する必要性と, 個人性のための単語を正確に予測する必要性を明らかにした。

関連論文リスト

Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
Spontaneous Style Text-to-Speech Synthesis with Controllable Spontaneous Behaviors Based on Language Models [55.898594710420326]
本稿では,言語モデルに基づく新たな自然音声合成システムを提案する。自発音声における微妙な韻律変化を捉えるモデルの能力を高めるために, きめ細かい韻律モデリングを導入する。
論文参考訳（メタデータ） (2024-07-18T13:42:38Z)
We Need Variations in Speech Synthesis: Sub-center Modelling for Speaker Embeddings [47.2515056854372]
音声合成においては、人間の声に含まれる豊かな感情と韻律変化のモデリングが自然音声の合成に不可欠である。本稿では,従来の組込み方式として単一クラス中心ではなく,複数クラス中心を用いた話者分類訓練を行う新しい組込みネットワークを提案する。
論文参考訳（メタデータ） (2024-07-05T06:54:24Z)
Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文参考訳（メタデータ） (2024-02-11T02:26:43Z)
Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis [53.511443791260206]
自発型音声と自発型行動ラベルの量を増やすための半教師付き事前学習法を提案する。半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。
論文参考訳（メタデータ） (2023-08-31T09:50:33Z)
EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文参考訳（メタデータ） (2023-08-10T17:41:19Z)
Zero-shot personalized lip-to-speech synthesis with face image based voice control [41.17483247506426]
顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略で大きく進歩している。顔画像が話者の身元を制御するゼロショットパーソナライズされたLip2Speech合成法を提案する。
論文参考訳（メタデータ） (2023-05-09T02:37:29Z)
An Overview of Affective Speech Synthesis and Conversion in the Deep Learning Era [39.91844543424965]
表現力(Affect)は、親密な思考、感情、感情を伝達できる媒体に音声を変換する能力を持つ。近年のテキスト音声合成の進歩に続き、感情音声合成と変換の分野でパラダイムシフトが進行中である。ディープラーニング(Deep Learning)は、人工知能の最近の進歩の根底にある技術で、これらの取り組みを先導している。
論文参考訳（メタデータ） (2022-10-06T13:55:59Z)
Towards Modelling Coherence in Spoken Discourse [48.80477600384429]
話し言葉におけるコヒーレンスは、音声の韻律的および音響的パターンに依存している。音声に基づくコヒーレンスモデルを用いて音声対話におけるコヒーレンスをモデル化する。
論文参考訳（メタデータ） (2020-12-31T20:18:29Z)
Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis [37.37319356008348]
本研究は,話者の唇の動きのみを与えられた自然な音声を生成することを学ぶことを目的として,音声合成における唇の課題を探求する。我々は,制約のない大規模な語彙設定において,個々の話者に対して,正確な唇配列から音声マッピングへの学習に焦点をあてる。そこで本稿では, 音声合成の精度, 自然な唇を実現するために, 鍵となる設計選択を用いた新しい手法を提案する。
論文参考訳（メタデータ） (2020-05-17T10:29:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。