論文の概要: Revisiting Neural Language Modelling with Syllables
- arxiv url: http://arxiv.org/abs/2010.12881v1
- Date: Sat, 24 Oct 2020 11:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 13:11:15.823266
- Title: Revisiting Neural Language Modelling with Syllables
- Title(参考訳): Syllablesを用いたニューラル言語モデリングの再検討
- Authors: Arturo Oncevay and Kervy Rivas Rojas
- Abstract要約: 我々は20言語でオープン語彙生成タスクのために音節を再考する。
ルールベースのシラビフィケーション手法を5つの言語で使用し,残りをハイフン化ツールで処理する。
同等の難易度で、音節は文字、注釈付き形態素、教師なしのサブワードよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 3.198144010381572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language modelling is regularly analysed at word, subword or character units,
but syllables are seldom used. Syllables provide shorter sequences than
characters, they can be extracted with rules, and their segmentation typically
requires less specialised effort than identifying morphemes. We reconsider
syllables for an open-vocabulary generation task in 20 languages. We use
rule-based syllabification methods for five languages and address the rest with
a hyphenation tool, which behaviour as syllable proxy is validated. With a
comparable perplexity, we show that syllables outperform characters, annotated
morphemes and unsupervised subwords. Finally, we also study the overlapping of
syllables concerning other subword pieces and discuss some limitations and
opportunities.
- Abstract(参考訳): 言語モデリングは単語、サブワード、文字単位で定期的に分析されるが、音節はほとんど使われない。
シラブルは文字よりも短いシーケンスを提供し、規則で抽出することができる。
我々は20言語でオープン語彙生成タスクのために音節を再考する。
我々は5つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りのものはハイフン化ツールを用いて対処する。
類似のパープレキシティで、音節は文字、注釈付きモーフィム、教師なしのサブワードよりも優れています。
最後に、他のサブワードに関する音節の重なりについても検討し、いくつかの制限と機会について論じる。
関連論文リスト
- Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Syllabification of the Divine Comedy [0.0]
本稿では,確率的および制約的プログラミングの手法を用いて,Divine Comedyのシラビフィケーションアルゴリズムを提案する。
我々は特に、隣接した単語でシナリーフに参加する単語の「正当性」の観点から、シナリーフに焦点を合わせている。
我々は,各単語について,その音節の音節化,音節アクセントの位置,上述の相補性といった情報を含むオンライン語彙を共同で提供する。
論文 参考訳(メタデータ) (2020-10-26T12:14:14Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Self-organizing Pattern in Multilayer Network for Words and Syllables [17.69876273827734]
音節の等しく重要な役割を強調する新しい普遍法則を提案する。
英語と中国語のコーパスで単語と音節のランク頻度分布をプロットすることにより、目に見える線が出現し、マスターカーブに適合する。
論文 参考訳(メタデータ) (2020-05-05T12:01:47Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。