Fugu-MT 論文翻訳(概要): An investigation of speaker independent phrase break models in End-to-End TTS systems

論文の概要: An investigation of speaker independent phrase break models in End-to-End TTS systems

arxiv url: http://arxiv.org/abs/2304.04157v2
Date: Fri, 21 Apr 2023 05:03:27 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 17:11:50.938109
Title: An investigation of speaker independent phrase break models in End-to-End TTS systems
Title（参考訳）: End-to-End TTSシステムにおける話者独立語句分割モデルの検討
Authors: Anandaswarup Vadapalli
Abstract要約: 終末TSシステムにおけるフレーズブレーク予測モデルの有用性と有効性を評価する。語句分割の場所を予測した後に合成された物語に明確な嗜好があることを知覚的聴取評価を用いて示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents our work on phrase break prediction in the context of end-to-end TTS systems, motivated by the following questions: (i) Is there any utility in incorporating an explicit phrasing model in an end-to-end TTS system?, and (ii) How do you evaluate the effectiveness of a phrasing model in an end-to-end TTS system? In particular, the utility and effectiveness of phrase break prediction models are evaluated in in the context of childrens story synthesis, using listener comprehension. We show by means of perceptual listening evaluations that there is a clear preference for stories synthesized after predicting the location of phrase breaks using a trained phrasing model, over stories directly synthesized without predicting the location of phrase breaks.
Abstract（参考訳）: 本稿では, 終末TSシステムの文脈におけるフレーズブレーク予測に関する研究について, 以下の質問に動機づけられた。 (i)エンド・ツー・エンドのttsシステムに明示的なフラージングモデルを組み込むユーティリティは存在するか? と (II)エンドツーエンドTSシステムにおける表現モデルの有効性をどう評価するか。特に,子どもの物語合成におけるフレーズブレーク予測モデルの有用性と有効性について,リスナー理解を用いて評価した。学習したフラージングモデルを用いてフレーズブレークの位置を予測した後、フレーズブレイクの位置を予測せずに直接合成したストーリーよりも、フレーズブレイクの位置を予測した後に合成されたストーリーに明確な好みがあることを知覚的リスニング評価により示す。

関連論文リスト

Shared Latent Representation for Joint Text-to-Audio-Visual Synthesis [57.5830191022097]
Text-to-VecモジュールはテキストからWav2Vec2埋め込みを生成する。 We adopt a two-stage training: Pretraining on Wav2Vec2 embeddeddings and finetuning on TTS outputs。実験により、TS予測潜伏特性の条件付けはカスケードパイプラインよりも優れていることが示された。
論文参考訳（メタデータ） (2025-11-07T17:07:56Z)
Adaptive Duration Model for Text Speech Alignment [2.594813802197567]
音声からテキストへのアライメントは、ニューラルテキストから音声へのアライメント(TTS)モデルの重要な構成要素である。そこで本研究では,音素レベルの持続時間分布を与えられたテキストで予測できる新しい持続時間予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-07-30T12:31:11Z)
Word-wise intonation model for cross-language TTS systems [0.0]
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
論文参考訳（メタデータ） (2024-09-30T15:09:42Z)
Prior-agnostic Multi-scale Contrastive Text-Audio Pre-training for Parallelized TTS Frontend Modeling [13.757256085713571]
本稿では,新たな2段階予測パイプラインであるTAP-FMを提案する。具体的には,マルチスケールコントラストテキストオーディオ事前学習プロトコル(MC-TAP)を提案する。本フレームワークは,グローバル・ローカル・テキスト・オーディオ・セマンティクスと音響表現の両方を深く掘り下げる機能を示す。
論文参考訳（メタデータ） (2024-04-14T08:56:19Z)
Prosody in Cascade and Direct Speech-to-Text Translation: a case study on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文参考訳（メタデータ） (2024-02-01T14:46:35Z)
Utilizing Neural Transducers for Two-Stage Text-to-Speech via Semantic Token Prediction [15.72317249204736]
本稿では,ニューラルトランスデューサを中心とした新しいテキスト音声合成(TTS)フレームワークを提案する。提案手法では,TSパイプライン全体をセマンティックレベルのシーケンス・ツー・シーケンス・モデリング(seq2seq)ときめ細かな音響モデルステージに分割する。ゼロショット適応型TS実験の結果,音声品質と話者類似度の観点から,モデルがベースラインを超えていることが判明した。
論文参考訳（メタデータ） (2024-01-03T02:03:36Z)
Transduce and Speak: Neural Transducer for Text-to-Speech with Semantic Token Prediction [14.661123738628772]
本稿では,ニューラルトランスデューサに基づくテキスト音声合成(TTS)フレームワークを提案する。 We use discretized semantic tokens acquired from wav2vec2.0 embeddeddings, which makes it easy to adopt a neural transducer for the TTS framework enjoy its monotonic alignment constraints。
論文参考訳（メタデータ） (2023-11-06T06:13:39Z)
High-Fidelity Speech Synthesis with Minimal Supervision: All Using Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文参考訳（メタデータ） (2023-09-27T09:27:03Z)
PauseSpeech: Natural Speech Synthesis via Pre-trained Language Model and Pause-based Prosody Modeling [25.966328901566815]
本稿では,事前学習した言語モデルとポーズに基づく韻律モデルを用いた音声合成システムPuaseSpeechを提案する。実験の結果,PauseSpeechは自然性において過去のモデルよりも優れていた。
論文参考訳（メタデータ） (2023-06-13T01:36:55Z)
Duration-aware pause insertion using pre-trained language model for multi-speaker text-to-speech [40.65850332919397]
事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
論文参考訳（メタデータ） (2023-02-27T10:40:41Z)
ParaTTS: Learning Linguistic and Prosodic Cross-sentence Information in Paragraph-based TTS [19.988974534582205]
本稿では, 言語情報と韻律情報を, クロス文, 組込み構造を考慮した訓練によりモデル化することを提案する。マンダリン系女性話者が記録した物語のオーディオブックコーパス(4.08時間)を訓練した。提案したTSモデルは,比較的自然で高品質な音声節を生成できることを示す。
論文参考訳（メタデータ） (2022-09-14T08:34:16Z)
BERT, can HE predict contrastive focus? Predicting and controlling prominence in neural TTS using a language model [29.188684861193092]
コントラスト焦点を含む発話に基づいて,音質特性の定量化を図ったBERTモデルの精度を評価する。また,音響的特徴に基づくTSモデルにおける代名詞長の制御性についても検討した。
論文参考訳（メタデータ） (2022-07-04T20:43:41Z)
Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文参考訳（メタデータ） (2022-06-09T15:39:19Z)
A Complementary Joint Training Approach Using Unpaired Speech and Text for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文参考訳（メタデータ） (2022-04-05T07:02:53Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
A study on the efficacy of model pre-training in developing neural text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-08T02:09:28Z)
On the Interplay Between Sparsity, Naturalness, Intelligibility, and Prosody in Speech Synthesis [102.80458458550999]
スパーティイとその後の合成音声に対する効果のトレードオフについて検討する。以上の結果から, 終末TTSモデルに限らず, プルーニングされたTTSモデルでも, 自然性や知性に富んだ合成音声を生成できることが示唆された。
論文参考訳（メタデータ） (2021-10-04T02:03:28Z)
Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文参考訳（メタデータ） (2021-07-12T17:40:43Z)
Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文参考訳（メタデータ） (2020-12-10T01:27:24Z)
Introducing Syntactic Structures into Target Opinion Word Extraction with Deep Learning [89.64620296557177]
目的語抽出のためのディープラーニングモデルに文の構文構造を組み込むことを提案する。また,ディープラーニングモデルの性能向上のために,新たな正規化手法を導入する。提案モデルは,4つのベンチマークデータセット上での最先端性能を広範囲に解析し,達成する。
論文参考訳（メタデータ） (2020-10-26T07:13:17Z)
SPLAT: Speech-Language Joint Pre-Training for Spoken Language Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文参考訳（メタデータ） (2020-10-05T19:29:49Z)
Semi-supervised Learning for Multi-speaker Text-to-speech Synthesis Using Discrete Speech Representation [125.59372403631006]
マルチ話者テキスト音声(TTS)のための半教師付き学習手法を提案する。マルチスピーカTTSモデルは、離散音声表現を備えたエンコーダデコーダフレームワークを用いて、未転写音声から学習することができる。提案した半教師あり学習手法は,音声データの一部がうるさい場合にも有効であることがわかった。
論文参考訳（メタデータ） (2020-05-16T15:47:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。