論文の概要: Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT
- arxiv url: http://arxiv.org/abs/2501.01102v1
- Date: Thu, 02 Jan 2025 06:51:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:12:15.536837
- Title: Disambiguation of Chinese Polyphones in an End-to-End Framework with Semantic Features Extracted by Pre-trained BERT
- Title(参考訳): プレトレーニングBERTにより抽出された意味的特徴を持つエンドツーエンドフレームワークにおける中国語ポリホンの曖昧さ
- Authors: Dongyang Dai, Zhiyong Wu, Shiyin Kang, Xixin Wu, Jia Jia, Dan Su, Dong Yu, Helen Meng,
- Abstract要約: ポリフォニック文字の発音を予測するためのエンドツーエンドフレームワークを提案する。
提案手法は,Transformers(BERT)モデルとニューラルネットワーク(NN)に基づく分類器から,事前訓練された双方向エンコーダ表現からなる。
- 参考スコア(独自算出の注目度): 81.99600765234285
- License:
- Abstract: Grapheme-to-phoneme (G2P) conversion serves as an essential component in Chinese Mandarin text-to-speech (TTS) system, where polyphone disambiguation is the core issue. In this paper, we propose an end-to-end framework to predict the pronunciation of a polyphonic character, which accepts sentence containing polyphonic character as input in the form of Chinese character sequence without the necessity of any preprocessing. The proposed method consists of a pre-trained bidirectional encoder representations from Transformers (BERT) model and a neural network (NN) based classifier. The pre-trained BERT model extracts semantic features from a raw Chinese character sequence and the NN based classifier predicts the polyphonic character's pronunciation according to BERT output. In out experiments, we implemented three classifiers, a fully-connected network based classifier, a long short-term memory (LSTM) network based classifier and a Transformer block based classifier. The experimental results compared with the baseline approach based on LSTM demonstrate that, the pre-trained model extracts effective semantic features, which greatly enhances the performance of polyphone disambiguation. In addition, we also explored the impact of contextual information on polyphone disambiguation.
- Abstract(参考訳): Grapheme-to-phoneme (G2P) 変換は、中国語の Mandarin text-to-speech (TTS) システムにおいて重要な要素である。
本稿では,漢字列の入力としてポリフォニック文字を含む文を,前処理を必要とせずに受け付ける,多声文字の発音予測のためのエンドツーエンドフレームワークを提案する。
提案手法は,Transformers(BERT)モデルとニューラルネットワーク(NN)に基づく分類器から,事前訓練された双方向エンコーダ表現からなる。
事前学習されたBERTモデルは、原漢字列から意味的特徴を抽出し、NNベースの分類器は、BERT出力に応じてポリフォニック文字の発音を予測する。
実験では, 3つの分類器, 完全接続型ネットワークベース分類器, LSTMネットワークベース分類器, トランスフォーマーブロックベース分類器を実装した。
LSTMに基づくベースラインモデルと比較した実験結果から,事前学習したモデルが効果的な意味的特徴を抽出し,ポリフォンの曖昧さを著しく向上させることを示した。
また,ポリホンの曖昧さに対する文脈情報の影響についても検討した。
関連論文リスト
- CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Detecting out-of-distribution text using topological features of transformer-based language models [0.5735035463793009]
本稿では,トランスフォーマーに基づく言語モデルからの自己注意マップのトポロジ的特徴を利用して,入力テキストの分布外の検出を行う。
BERT に対する我々のアプローチを評価し,従来の OOD アプローチと比較した。
以上の結果から,本手法はCLS埋め込みよりも優れており,ドメイン内分布サンプルとドメイン外分布サンプルを区別するが,ほぼ同一あるいは同一のデータセットと競合することを示す。
論文 参考訳(メタデータ) (2023-11-22T02:04:35Z) - Sign Language Translation with Iterative Prototype [104.76761930888604]
IP-SLTは手話翻訳のためのシンプルだが効果的なフレームワークである
我々の考えは、人間の読みの振る舞いを模倣し、文を何度も消化して、正確な理解を得るというものである。
論文 参考訳(メタデータ) (2023-08-23T15:27:50Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Dual-Decoder Transformer For end-to-end Mandarin Chinese Speech
Recognition with Pinyin and Character [15.999657143705045]
ピニインと文字・綴り体系としての性格はそれぞれ、中国語における相互の昇進である。
そこで本研究では,2次元デコーダ変換器を用いた新しい中国語ASRモデルを提案する。
AISHELL-1データセットのテストセットの結果は、言語モデルを持たない音声-ピニイン-文字-相互作用(S PCI)モデルがテストセット上で9.85%の文字誤り率(CER)を達成することを示している。
論文 参考訳(メタデータ) (2022-01-26T07:59:03Z) - AlloST: Low-resource Speech Translation without Source Transcription [17.53382405899421]
言語に依存しないユニバーサル電話認識機能を利用する学習フレームワークを提案する。
このフレームワークは注意に基づくシーケンス・トゥ・シークエンスモデルに基づいている。
スペイン英語とタイギ・マンダリンのドラマ『コーポラ』で行った実験では、本手法がコンフォーメータベースのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2021-05-01T05:30:18Z) - Cascade RNN-Transducer: Syllable Based Streaming On-device Mandarin
Speech Recognition with a Syllable-to-Character Converter [10.262490936452688]
本稿では,RNN-Tの言語モデリング能力を向上させるために,新しいカスケードRNN-T手法を提案する。
いくつかの重要なトリックを導入することで、カスケードRNN-Tアプローチは、いくつかのマンダリンテストセットにおいて、文字ベースのRNN-Tを大きなマージンで上回る。
論文 参考訳(メタデータ) (2020-11-17T06:42:47Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。