論文の概要: Fully-hierarchical fine-grained prosody modeling for interpretable
speech synthesis
- arxiv url: http://arxiv.org/abs/2002.03785v1
- Date: Thu, 6 Feb 2020 12:52:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 12:39:18.785996
- Title: Fully-hierarchical fine-grained prosody modeling for interpretable
speech synthesis
- Title(参考訳): 解釈可能な音声合成のための完全階層的微細韻律モデリング
- Authors: Guangzhi Sun, Yu Zhang, Ron J. Weiss, Yuan Cao, Heiga Zen, Yonghui Wu
- Abstract要約: 本稿では,Tacotron 2テキスト音声モデルに基づく韻律の階層的,きめ細かな,解釈可能な潜在変数モデルを提案する。
粗いレベル表現に対してより微細なレベル表現を条件付けることで、プロソディのマルチレゾリューションモデリングを実現する。
- 参考スコア(独自算出の注目度): 42.29094097639594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a hierarchical, fine-grained and interpretable latent
variable model for prosody based on the Tacotron 2 text-to-speech model. It
achieves multi-resolution modeling of prosody by conditioning finer level
representations on coarser level ones. Additionally, it imposes hierarchical
conditioning across all latent dimensions using a conditional variational
auto-encoder (VAE) with an auto-regressive structure. Evaluation of
reconstruction performance illustrates that the new structure does not degrade
the model while allowing better interpretability. Interpretations of prosody
attributes are provided together with the comparison between word-level and
phone-level prosody representations. Moreover, both qualitative and
quantitative evaluations are used to demonstrate the improvement in the
disentanglement of the latent dimensions.
- Abstract(参考訳): 本稿では,Tacotron 2テキスト音声モデルに基づく韻律の階層的,きめ細かな,解釈可能な潜在変数モデルを提案する。
より粗いレベルの表現を条件付けすることで、韻律のマルチレゾリューションモデリングを実現する。
さらに、条件付き変分自動エンコーダ(VAE)と自己回帰構造を用いて、すべての潜在次元に階層的条件を課す。
復元性能の評価は、新しい構造がモデルを劣化させることなく、より優れた解釈性を実現していることを示している。
韻律属性の解釈は、単語レベルと音声レベルの韻律表現の比較と合わせて提供される。
さらに, 定性的および定量的な評価は, 潜伏次元の歪みの改善を示すために用いられる。
関連論文リスト
- How much do contextualized representations encode long-range context? [10.188367784207049]
我々は、数千のトークンにまたがる長距離コンテキストを強調し、ニューラルネットワークの自己回帰言語モデルにおける文脈表現を分析する。
提案手法では,表現幾何学の観点から長距離パターンの文脈化の度合いを捉えるために,摂動セットアップと計量エンファンソトロピー・キャリブレーション・コサイン類似度を用いている。
論文 参考訳(メタデータ) (2024-10-16T06:49:54Z) - LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification [5.8754760054410955]
構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである textttHi-CoDecomposition を紹介する。
われわれのアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供することで透明性を向上する。
論文 参考訳(メタデータ) (2024-05-29T00:36:56Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - Learning Disentangled Representations for Natural Language Definitions [0.0]
テキストデータの連続的な構文的・意味的規則性は、構造的バイアスと生成的要因の両方をモデルに提供するのに有効である、と我々は主張する。
本研究では,文型,定義文の表現的・意味的に密接なカテゴリに存在する意味的構造を利用して,不整合表現を学習するための変分オートエンコーダを訓練する。
論文 参考訳(メタデータ) (2022-09-22T14:31:55Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - Hierarchical Conditional End-to-End ASR with CTC and Multi-Granular
Subword Units [19.668440671541546]
エンドツーエンドの自動音声認識では、単語レベルのシーケンスを認識するのに適した表現を暗黙的に学習することが期待される。
接続型時間分類(CTC)に基づく階層型条件付きモデルを提案する。
LibriSpeech-100h, 960h, TEDLium2の実験結果から, 提案モデルが標準CTCモデルよりも改良されていることが示された。
論文 参考訳(メタデータ) (2021-10-08T13:15:58Z) - Evaluating the Impact of a Hierarchical Discourse Representation on
Entity Coreference Resolution Performance [3.7277082975620797]
本研究では,ニューラルアプローチで自動構築された対話解析木を活用する。
2つのベンチマークエンティティのコリファレンスレゾリューションデータセットにおける大幅な改善を示す。
論文 参考訳(メタデータ) (2021-04-20T19:14:57Z) - Hierarchical Prosody Modeling for Non-Autoregressive Speech Synthesis [76.39883780990489]
我々は,異なる韻律モデル設定下での非自己回帰的TSモデルの挙動を解析する。
本稿では,音素レベルの韻律的特徴を単語レベルの韻律的特徴に基づいて予測する階層的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-12T16:16:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。