論文の概要: Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS)
- arxiv url: http://arxiv.org/abs/2207.01547v1
- Date: Mon, 4 Jul 2022 16:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 15:46:11.616793
- Title: Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS)
- Title(参考訳): Unify and Conquer: 音声特徴表現が多言語テキスト音声(TTS)に与える影響
- Authors: Ariadna Sanchez, Alessio Falai, Ziyao Zhang, Orazio Angelini, Kayoko
Yanagisawa
- Abstract要約: 統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
- 参考スコア(独自算出の注目度): 3.57486761615991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: An essential design decision for multilingual Neural Text-To-Speech (NTTS)
systems is how to represent input linguistic features within the model. Looking
at the wide variety of approaches in the literature, two main paradigms emerge,
unified and separate representations. The former uses a shared set of phonetic
tokens across languages, whereas the latter uses unique phonetic tokens for
each language. In this paper, we conduct a comprehensive study comparing
multilingual NTTS systems models trained with both representations. Our results
reveal that the unified approach consistently achieves better cross-lingual
synthesis with respect to both naturalness and accent. Separate representations
tend to have an order of magnitude more tokens than unified ones, which may
affect model capacity. For this reason, we carry out an ablation study to
understand the interaction of the representation type with the size of the
token embedding. We find that the difference between the two paradigms only
emerges above a certain threshold embedding size. This study provides strong
evidence that unified representations should be the preferred paradigm when
building multilingual NTTS systems.
- Abstract(参考訳): 多言語ニューラルテキスト音声(NTTS)システムの基本設計決定は、モデル内の入力言語的特徴をどのように表現するかである。
文学における様々なアプローチを見ると、2つの主要なパラダイムが出現し、統一され、別々の表現が生まれます。
前者は言語間の音声トークンの共有セットを使用し、後者は言語毎にユニークな音声トークンを使用する。
本稿では,両表現を訓練した多言語NTTSシステムモデルと比較した総合的研究を行う。
以上の結果から,統一アプローチは自然性とアクセントの両方において,より優れた言語間合成を実現することが判明した。
分離表現は、モデルの容量に影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
そこで我々は,表現型とトークン埋め込みの大きさとの相互作用を理解するため,アブレーション研究を行った。
この2つのパラダイムの違いは、特定のしきい値埋め込みサイズを超えるだけである。
本研究は,多言語NTTSシステム構築において,統一表現が望ましいパラダイムであることを示す。
関連論文リスト
- How do Multimodal Foundation Models Encode Text and Speech? An Analysis of Cross-Lingual and Cross-Modal Representations [17.528100902591056]
クロスモーダル表現は、テキスト処理と音声処理に特化した初期層を除いて、モデル層に収束する。
音声はテキストよりも言語間の違いが大きい。
モダリティに依存しない表現のために明示的に訓練されていないモデルでは、モダリティギャップは言語ギャップよりも顕著である。
論文 参考訳(メタデータ) (2024-11-26T18:29:11Z) - Exploring syntactic information in sentence embeddings through multilingual subject-verb agreement [1.4335183427838039]
我々は,特定の特性を持つ大規模でキュレートされた合成データを開発するためのアプローチを採っている。
我々は、ブラックバード言語行列(Blackbird Language Matrices)と呼ばれる新しい複数選択タスクとデータセットを使用して、特定の文法構造現象に焦点を当てる。
多言語テキストを一貫した方法で訓練したにもかかわらず、多言語事前学習言語モデルには言語固有の違いがあることが示される。
論文 参考訳(メタデータ) (2024-09-10T14:58:55Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - MAESTRO: Matched Speech Text Representations through Modality Matching [35.566604806335626]
Maestroは、音声とテキストのモダリティから学習した表現を統一する自己教師型訓練手法である。
単語誤り率(WER)を11%低減したVoxPopuli多言語ASR上でのSOTA(State-of-the-art)を確立する。
我々はCoVoST 2上に新しい最先端のSOTA(State-of-the-art)を確立し、21以上の言語で平均2.8BLEUを改善した。
論文 参考訳(メタデータ) (2022-04-07T12:48:16Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Bridging the Modality Gap for Speech-to-Text Translation [57.47099674461832]
エンド・ツー・エンドの音声翻訳は、ある言語における音声を、エンド・ツー・エンドの方法で他の言語におけるテキストに変換することを目的としている。
既存のほとんどの手法では、音響表現と意味情報を同時に学習するために、単一のエンコーダを持つエンコーダ・デコーダ構造を用いる。
本稿では,音声とテキスト間のモダリティギャップを埋めることで,エンドツーエンドのモデル性能を向上させることを目的とした音声翻訳モデルのための音声テキスト適応手法を提案する。
論文 参考訳(メタデータ) (2020-10-28T12:33:04Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - Probing Contextual Language Models for Common Ground with Visual
Representations [76.05769268286038]
我々は、マッチングと非マッチングの視覚表現を区別する上で、テキストのみの表現がいかに効果的かを評価するための探索モデルを設計する。
以上の結果から,言語表現だけでは,適切な対象カテゴリから画像パッチを検索する強力な信号が得られることがわかった。
視覚的に接地された言語モデルは、例えば検索においてテキストのみの言語モデルよりわずかに優れているが、人間よりもはるかに低い。
論文 参考訳(メタデータ) (2020-05-01T21:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。