論文の概要: Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion
- arxiv url: http://arxiv.org/abs/2303.07726v1
- Date: Tue, 14 Mar 2023 09:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:48:50.550613
- Title: Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion
- Title(参考訳): 中国語のgrapheme-to-phoneme変換に必要なのは隣人だけ
- Authors: Jungjun Kim, Changjin Han, Gyuhyeon Nam, Gyeongsu Chae
- Abstract要約: ほとんどの中国語のGrapheme-to-Phoneme(G2P)システムは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、グローバルな文脈に基づいて音素を予測する3段階のフレームワークを使用している。
本稿では,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
- 参考スコア(独自算出の注目度): 1.5020330976600735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Chinese Grapheme-to-Phoneme (G2P) systems employ a three-stage framework
that first transforms input sequences into character embeddings, obtains
linguistic information using language models, and then predicts the phonemes
based on global context about the entire input sequence. However, linguistic
knowledge alone is often inadequate. Language models frequently encode overly
general structures of a sentence and fail to cover specific cases needed to use
phonetic knowledge. Also, a handcrafted post-processing system is needed to
address the problems relevant to the tone of the characters. However, the
system exhibits inconsistency in the segmentation of word boundaries which
consequently degrades the performance of the G2P system. To address these
issues, we propose the Reinforcer that provides strong inductive bias for
language models by emphasizing the phonological information between neighboring
characters to help disambiguate pronunciations. Experimental results show that
the Reinforcer boosts the cutting-edge architectures by a large margin. We also
combine the Reinforcer with a large-scale pre-trained model and demonstrate the
validity of using neighboring context in knowledge transfer scenarios.
- Abstract(参考訳): 中国語のGrapheme-to-Phoneme(G2P)システムでは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、入力シーケンス全体のグローバルコンテキストに基づいて音素を予測する3段階のフレームワークを採用している。
しかし、言語知識だけでは不十分であることが多い。
言語モデルは、しばしば文の過度に一般的な構造を符号化し、音韻的知識を使用するのに必要な特定のケースをカバーできない。
また,文字のトーンに関連する問題に対処するために,手作りのポストプロセッシングシステムが必要である。
しかし,このシステムでは単語境界のセグメンテーションに矛盾が生じ,結果としてG2Pシステムの性能が低下する。
これらの問題に対処するために,隣接する文字間の音韻情報を強調することにより,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
実験の結果,Reinforcerは最先端のアーキテクチャを大きなマージンで強化することがわかった。
また,強化器を大規模事前学習モデルと組み合わせ,知識伝達シナリオにおける隣接コンテキストの利用の有効性を示す。
関連論文リスト
- Data-driven grapheme-to-phoneme representations for a lexicon-free
text-to-speech [11.76320241588959]
Grapheme-to-Phoneme (G2P) は、近代的で高品質なText-to-Speech (TTS) システムにおいて重要な第一歩である。
現在のG2Pシステムのほとんどは、専門家によって開発された慎重に手作りのレキシコンに依存している。
我々のデータ駆動型レキシコンフリー法は、従来のルールベースやレキシコンベースのニューラルG2Pよりも優れているか、あるいははるかに優れていることを示す。
論文 参考訳(メタデータ) (2024-01-19T03:37:27Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - The Whole Truth and Nothing But the Truth: Faithful and Controllable
Dialogue Response Generation with Dataflow Transduction and Constrained
Decoding [65.34601470417967]
本稿では,ニューラルネットワークモデリングとルールベース生成の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。
本実験により, 本システムは, 流布性, 妥当性, 真理性の評価において, ルールベースおよび学習的アプローチの両方に優れることがわかった。
論文 参考訳(メタデータ) (2022-09-16T09:00:49Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。