論文の概要: Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion
- arxiv url: http://arxiv.org/abs/2303.07726v1
- Date: Tue, 14 Mar 2023 09:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 15:48:50.550613
- Title: Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion
- Title(参考訳): 中国語のgrapheme-to-phoneme変換に必要なのは隣人だけ
- Authors: Jungjun Kim, Changjin Han, Gyuhyeon Nam, Gyeongsu Chae
- Abstract要約: ほとんどの中国語のGrapheme-to-Phoneme(G2P)システムは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、グローバルな文脈に基づいて音素を予測する3段階のフレームワークを使用している。
本稿では,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
- 参考スコア(独自算出の注目度): 1.5020330976600735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most Chinese Grapheme-to-Phoneme (G2P) systems employ a three-stage framework
that first transforms input sequences into character embeddings, obtains
linguistic information using language models, and then predicts the phonemes
based on global context about the entire input sequence. However, linguistic
knowledge alone is often inadequate. Language models frequently encode overly
general structures of a sentence and fail to cover specific cases needed to use
phonetic knowledge. Also, a handcrafted post-processing system is needed to
address the problems relevant to the tone of the characters. However, the
system exhibits inconsistency in the segmentation of word boundaries which
consequently degrades the performance of the G2P system. To address these
issues, we propose the Reinforcer that provides strong inductive bias for
language models by emphasizing the phonological information between neighboring
characters to help disambiguate pronunciations. Experimental results show that
the Reinforcer boosts the cutting-edge architectures by a large margin. We also
combine the Reinforcer with a large-scale pre-trained model and demonstrate the
validity of using neighboring context in knowledge transfer scenarios.
- Abstract(参考訳): 中国語のGrapheme-to-Phoneme(G2P)システムでは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、入力シーケンス全体のグローバルコンテキストに基づいて音素を予測する3段階のフレームワークを採用している。
しかし、言語知識だけでは不十分であることが多い。
言語モデルは、しばしば文の過度に一般的な構造を符号化し、音韻的知識を使用するのに必要な特定のケースをカバーできない。
また,文字のトーンに関連する問題に対処するために,手作りのポストプロセッシングシステムが必要である。
しかし,このシステムでは単語境界のセグメンテーションに矛盾が生じ,結果としてG2Pシステムの性能が低下する。
これらの問題に対処するために,隣接する文字間の音韻情報を強調することにより,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
実験の結果,Reinforcerは最先端のアーキテクチャを大きなマージンで強化することがわかった。
また,強化器を大規模事前学習モデルと組み合わせ,知識伝達シナリオにおける隣接コンテキストの利用の有効性を示す。
関連論文リスト
- The Whole Truth and Nothing But the Truth: Faithful and Controllable
Dialogue Response Generation with Dataflow Transduction and Constrained
Decoding [65.34601470417967]
現実世界の対話システムでは、生成された応答はいくつかのインターロック制約を満たす必要がある。
言語生成における2つの主要なパラダイム – ニューラル言語モデリングとルールベースの生成 – はいずれも,これらの制約を満たすのに苦労している。
両手法の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。
論文 参考訳(メタデータ) (2022-09-16T09:00:49Z) - SoundChoice: Grapheme-to-Phoneme Models with Semantic Disambiguation [10.016862617549991]
本稿では,単語レベルで操作するのではなく文全体を処理可能な新しいGrapheme-to-Phoneme(G2P)アーキテクチャであるSoundChoiceを提案する。
SoundChoiceは、LibriSpeechとWikipediaのデータを用いて全文の書き起こしで2.65%のPhoneme Error Rate(PER)を達成する。
論文 参考訳(メタデータ) (2022-07-27T01:14:59Z) - Unify and Conquer: How Phonetic Feature Representation Affects Polyglot
Text-To-Speech (TTS) [3.57486761615991]
統一表現は、自然性とアクセントの両方に関して、より優れた言語間合成を達成する。
分離表現は、モデルキャパシティに影響を与える可能性がある統一表現よりも桁違いに多くのトークンを持つ傾向がある。
論文 参考訳(メタデータ) (2022-07-04T16:14:57Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - LET: Linguistic Knowledge Enhanced Graph Transformer for Chinese Short
Text Matching [29.318730227080675]
外部知識基盤としてHowNetを導入し,単語のあいまいさに対処する言語知識拡張グラフ変換器(LET)を提案する。
2つの中国語データセットによる実験結果から、我々のモデルは様々な典型的なテキストマッチング手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-02-25T04:01:51Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。