論文の概要: Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation
- arxiv url: http://arxiv.org/abs/2211.09495v1
- Date: Thu, 17 Nov 2022 12:37:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:26:00.073331
- Title: Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation
- Title(参考訳): 中国語多言語不明瞭化のためのバックトランスレーション型データ拡張
- Authors: Chunyu Qiang, Peng Yang, Hao Che, Jinba Xiao, Xiaorui Wang, Zhongyuan
Wang
- Abstract要約: ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
- 参考スコア(独自算出の注目度): 35.35236347070773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversion of Chinese Grapheme-to-Phoneme (G2P) plays an important role in
Mandarin Chinese Text-To-Speech (TTS) systems, where one of the biggest
challenges is the task of polyphone disambiguation. Most of the previous
polyphone disambiguation models are trained on manually annotated datasets, and
publicly available datasets for polyphone disambiguation are scarce. In this
paper we propose a simple back-translation-style data augmentation method for
mandarin Chinese polyphone disambiguation, utilizing a large amount of
unlabeled text data. Inspired by the back-translation technique proposed in the
field of machine translation, we build a Grapheme-to-Phoneme (G2P) model to
predict the pronunciation of polyphonic character, and a Phoneme-to-Grapheme
(P2G) model to predict pronunciation into text. Meanwhile, a window-based
matching strategy and a multi-model scoring strategy are proposed to judge the
correctness of the pseudo-label. We design a data balance strategy to improve
the accuracy of some typical polyphonic characters in the training set with
imbalanced distribution or data scarcity. The experimental result shows the
effectiveness of the proposed back-translation-style data augmentation method.
- Abstract(参考訳): 中国語のG2P(Grapheme-to-Phoneme)の変換は,中国語のテキスト音声(TTS)システムにおいて重要な役割を担っている。
従来のポリフォーン曖昧化モデルのほとんどは手動で注釈付きデータセットでトレーニングされており、ポリフォーン曖昧化のための公開データセットは少ない。
本稿では,大量のラベルなしテキストデータを用いた中国語ポリホンの曖昧さ解消のための簡易なバックトランスレーション方式データ拡張手法を提案する。
機械翻訳の分野で提案されているバック翻訳技術に触発されて,多音文字の発音を予測するためのG2Pモデルと,文字の発音を予測するP2Gモデルを構築した。
一方、擬似ラベルの正しさを判断するために、ウィンドウベースマッチング戦略とマルチモデルスコアリング戦略を提案する。
我々は,不均衡分布やデータ不足を伴う訓練セットにおける典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
実験の結果,提案手法の有効性が示された。
関連論文リスト
- External Knowledge Augmented Polyphone Disambiguation Using Large
Language Model [3.372242769313867]
生成タスクとして問題を解くための新しい方法を提案する。
検索モジュールは中国語の多音文字の多段階意味辞書である外部知識を取り入れている。
生成モジュールはデコーダのみのTransformerアーキテクチャを採用し、ターゲットテキストを誘導する。
Postprocessモジュールは、必要に応じて生成されたテキストを有効な結果に修正する。
論文 参考訳(メタデータ) (2023-12-19T08:00:10Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - A Polyphone BERT for Polyphone Disambiguation in Mandarin Chinese [2.380039717474099]
Grapheme-to-phoneme (G2P) 変換は、中国語の Mandarin text-to-speech (TTS) システムの必須部分である。
本稿では,中国語のポリホン文字の発音を予測するために,中国語のポリホンBERTモデルを提案する。
論文 参考訳(メタデータ) (2022-07-01T09:16:29Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Polyphone Disambiguation in Mandarin Chinese with Semi-Supervised Learning [9.13211149475579]
漢字の大部分は単音であり、多声文字と呼ばれる特殊な文字群は複数の発音を持つ。
音声関連生成タスクの実行の前提条件として、正しい発音を複数の候補者に特定する必要がある。
マンダリン中国語多音不明瞭化のための半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-01T03:47:59Z) - Decoupling Pronunciation and Language for End-to-end Code-switching
Automatic Speech Recognition [66.47000813920617]
本稿では,モノリンガルペアデータと未ペアテキストデータを利用するデカップリング変換器モデルを提案する。
モデルはA2P(Audio-to-phoneme)ネットワークとP2T(P2T)ネットワークの2つの部分に分けられる。
モノリンガルデータと未ペアテキストデータを使用することで、分離されたトランスフォーマーモデルは、E2Eモデルのコードスイッチングペアリングトレーニングデータへの高依存性を低減する。
論文 参考訳(メタデータ) (2020-10-28T07:46:15Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z) - g2pM: A Neural Grapheme-to-Phoneme Conversion Package for Mandarin
Chinese Based on a New Open Benchmark Dataset [14.323478990713477]
中国語の多音不明瞭化のための99,000以上の文からなる新しいベンチマークデータセットを提案する。
私たちは、その上に単純なニューラルネットワークモデルをトレーニングし、既存のG2Pシステムよりも優れていることを見つけます。
論文 参考訳(メタデータ) (2020-04-07T05:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。