論文の概要: Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation
- arxiv url: http://arxiv.org/abs/2210.02509v1
- Date: Wed, 5 Oct 2022 18:55:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 16:07:44.195362
- Title: Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation
- Title(参考訳): 言語モデルにおける音節の再検討と低リソース機械翻訳への応用
- Authors: Arturo Oncevay, Kervy Dante Rivas Rojas, Liz Karen Chavez Sanchez,
Roberto Zariquiey
- Abstract要約: シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
- 参考スコア(独自算出の注目度): 1.2617078020344619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language modelling and machine translation tasks mostly use subword or
character inputs, but syllables are seldom used. Syllables provide shorter
sequences than characters, require less-specialised extracting rules than
morphemes, and their segmentation is not impacted by the corpus size. In this
study, we first explore the potential of syllables for open-vocabulary language
modelling in 21 languages. We use rule-based syllabification methods for six
languages and address the rest with hyphenation, which works as a
syllabification proxy. With a comparable perplexity, we show that syllables
outperform characters and other subwords. Moreover, we study the importance of
syllables on neural machine translation for a non-related and low-resource
language-pair (Spanish--Shipibo-Konibo). In pairwise and multilingual systems,
syllables outperform unsupervised subwords, and further morphological
segmentation methods, when translating into a highly synthetic language with a
transparent orthography (Shipibo-Konibo). Finally, we perform some human
evaluation, and discuss limitations and opportunities.
- Abstract(参考訳): 言語モデリングや機械翻訳は、主にサブワードや文字入力を使うが、音節はほとんど使われない。
音節は文字よりも短いシーケンスを提供し、モーフィムよりも規則の抽出は必要とせず、そのセグメンテーションはコーパスサイズに影響されない。
本研究では,21言語における開語彙言語モデリングにおける音節の可能性について検討する。
我々は6言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
類似のパープレキシティで、音節は文字や他のサブワードよりも優れています。
さらに,無関係・低リソース言語ペア (shipibo-konibo) におけるニューラルマシン翻訳における音節の重要性について検討した。
対訳系や多言語系では、音節は、透明な正書法(shipibo-konibo)で高度に合成された言語に翻訳する際に、教師なしのサブワードや、さらに形態素的なセグメンテーション法を上回る。
最後に、人間による評価を行い、限界と機会について論じる。
関連論文リスト
- Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - Design and Implementation of a Tool for Extracting Uzbek Syllables [0.0]
シラビフィケーション(Syllabification)は、言語研究、言語技術、教育、および様々な分野に応用された多用途の言語ツールである。
本稿では,ルールベースの手法や機械学習アルゴリズムを含む,ウズベク語のシラビフィケーションに対する包括的アプローチを提案する。
実験の結果,両アプローチは高い精度を示し,99%以上であった。
論文 参考訳(メタデータ) (2023-12-25T17:46:58Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Syllabification of the Divine Comedy [0.0]
本稿では,確率的および制約的プログラミングの手法を用いて,Divine Comedyのシラビフィケーションアルゴリズムを提案する。
我々は特に、隣接した単語でシナリーフに参加する単語の「正当性」の観点から、シナリーフに焦点を合わせている。
我々は,各単語について,その音節の音節化,音節アクセントの位置,上述の相補性といった情報を含むオンライン語彙を共同で提供する。
論文 参考訳(メタデータ) (2020-10-26T12:14:14Z) - Revisiting Neural Language Modelling with Syllables [3.198144010381572]
我々は20言語でオープン語彙生成タスクのために音節を再考する。
ルールベースのシラビフィケーション手法を5つの言語で使用し,残りをハイフン化ツールで処理する。
同等の難易度で、音節は文字、注釈付き形態素、教師なしのサブワードよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:44:41Z) - Self-organizing Pattern in Multilayer Network for Words and Syllables [17.69876273827734]
音節の等しく重要な役割を強調する新しい普遍法則を提案する。
英語と中国語のコーパスで単語と音節のランク頻度分布をプロットすることにより、目に見える線が出現し、マスターカーブに適合する。
論文 参考訳(メタデータ) (2020-05-05T12:01:47Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。