論文の概要: Word-wise intonation model for cross-language TTS systems
- arxiv url: http://arxiv.org/abs/2409.20374v1
- Date: Mon, 30 Sep 2024 15:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 07:46:26.882116
- Title: Word-wise intonation model for cross-language TTS systems
- Title(参考訳): 言語間TSシステムのための単語ワイドインネーションモデル
- Authors: Tomilov A. A., Gromova A. Y., Svischev A. N,
- Abstract要約: 提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper we propose a word-wise intonation model for Russian language and show how it can be generalized for other languages. The proposed model is suitable for automatic data markup and its extended application to text-to-speech systems. It can also be implemented for an intonation contour modeling by using rule-based algorithms or by predicting contours with language models. The key idea is a partial elimination of the variability connected with different placements of a stressed syllable in a word. It is achieved with simultaneous applying of pitch simplification with a dynamic time warping clustering. The proposed model could be used as a tool for intonation research or as a backbone for prosody description in text-to-speech systems. As the advantage of the model, we show its relations with the existing intonation systems as well as the possibility of using language models for prosody prediction. Finally, we demonstrate some practical evidence of the system robustness to parameter variations.
- Abstract(参考訳): 本稿では,ロシア語の単語単位のイントネーションモデルを提案し,他の言語に対してどのように一般化できるかを示す。
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
規則ベースのアルゴリズムや言語モデルで輪郭を予測することで、インネーション輪郭モデリングのために実装することもできる。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
ピッチ単純化と動的時間ワープクラスタリングを同時に適用することで実現した。
提案手法は, テキスト音声合成システムにおいて, 研究のインスピレーションや韻律記述のバックボーンとして利用することができる。
このモデルの利点として、既存のイントネーションシステムとの関係と、韻律予測に言語モデルを使用する可能性を示す。
最後に,パラメータ変動に対するシステムのロバスト性を示す実例を示す。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Emergent Representations of Program Semantics in Language Models Trained on Programs [3.376269351435396]
プログラムの形式的意味論を表現するために,コードの言語モデル(LM)が学習できることを示す。
本研究では,2次元グリッド環境をナビゲートするドメイン固有言語で記述されたプログラムの合成コーパス上でトランスフォーマーモデルを訓練する。
論文 参考訳(メタデータ) (2023-05-18T17:58:08Z) - An investigation of speaker independent phrase break models in
End-to-End TTS systems [0.0]
終末TSシステムにおけるフレーズブレーク予測モデルの有用性と有効性を評価する。
語句分割の場所を予測した後に合成された物語に明確な嗜好があることを知覚的聴取評価を用いて示す。
論文 参考訳(メタデータ) (2023-04-09T04:26:58Z) - Augmentation Invariant Discrete Representation for Generative Spoken
Language Modeling [41.733860809136196]
生成言語モデリングのための頑健な離散音声表現を効果的かつ効率的に学習する手法を提案する。
提案手法は、音声信号に一連の信号変換を適用し、反復的な擬似ラベル方式を用いてモデルを最適化することに基づく。
さらに、スペイン語とフランス語の翻訳を考慮し、音声から音声への翻訳作業における手法の評価を行い、提案手法が評価基準よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T14:15:03Z) - Language Model Cascades [72.18809575261498]
テスト時に1つのモデルで繰り返し対話する、あるいは複数のモデルの合成は、さらに機能を拡張する。
制御フローと動的構造を持つ場合、確率的プログラミングのテクニックが必要となる。
この観点から、スクラッチパッド/思考連鎖、検証器、STaR、選択推論、ツール利用など、いくつかの既存のテクニックを定式化します。
論文 参考訳(メタデータ) (2022-07-21T07:35:18Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - DiscreTalk: Text-to-Speech as a Machine Translation Problem [52.33785857500754]
本稿ではニューラルマシン翻訳(NMT)に基づくエンドツーエンドテキスト音声合成(E2E-TTS)モデルを提案する。
提案モデルは,非自己回帰ベクトル量子化変分オートエンコーダ(VQ-VAE)モデルと自己回帰トランスフォーマー-NMTモデルという2つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2020-05-12T02:45:09Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。