論文の概要: Morphology Matters: A Multilingual Language Modeling Analysis
- arxiv url: http://arxiv.org/abs/2012.06262v1
- Date: Fri, 11 Dec 2020 11:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:03:40.898238
- Title: Morphology Matters: A Multilingual Language Modeling Analysis
- Title(参考訳): Morphology Matters:多言語言語モデリング分析
- Authors: Hyunji Hayley Park, Katherine J. Zhang, Coleman Haley, Kenneth
Steimel, Han Liu, Lane Schwartz
- Abstract要約: 先行研究では、言語のモデル化が難しくなるかどうかについては意見が一致していない。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
いくつかの形態学的測定は、LSTMモデルがBPEセグメントデータで訓練されると、より高い推定値と有意に関連します。
- 参考スコア(独自算出の注目度): 8.791030561752384
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior studies in multilingual language modeling (e.g., Cotterell et al.,
2018; Mielke et al., 2019) disagree on whether or not inflectional morphology
makes languages harder to model. We attempt to resolve the disagreement and
extend those studies. We compile a larger corpus of 145 Bible translations in
92 languages and a larger number of typological features. We fill in missing
typological data for several languages and consider corpus-based measures of
morphological complexity in addition to expert-produced typological features.
We find that several morphological measures are significantly associated with
higher surprisal when LSTM models are trained with BPE-segmented data. We also
investigate linguistically-motivated subword segmentation strategies like
Morfessor and Finite-State Transducers (FSTs) and find that these segmentation
strategies yield better performance and reduce the impact of a language's
morphology on language modeling.
- Abstract(参考訳): 言語モデリングの先行研究(Cotterell et al., 2018; Mielke et al., 2019)では、屈折形態学が言語をモデル化しにくくするかどうかについて意見が分かれている。
我々はその意見の相違を解消し、研究を拡張しようと試みる。
我々は92の言語で145の聖書翻訳のより大きなコーパスをコンパイルし、多くの類型的特徴を蓄積する。
我々は,いくつかの言語で欠落しているタイプ学データを埋め,専門的なタイプ学的特徴に加えて,形態的複雑性のコーパスに基づく尺度を検討する。
LSTMモデルにBPE分類データを適用した場合,いくつかの形態的測定値が高い確率に大きく関連していることが判明した。
また,Morfessor や Finite-State Transducers (FSTs) のような言語的に動機付けられたサブワードセグメンテーション戦略も検討し,これらのセグメンテーション戦略が言語モデルに対する言語形態の影響を低減し,より良い性能をもたらすことを見出した。
関連論文リスト
- UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - Explicit Morphological Knowledge Improves Pre-training of Language
Models for Hebrew [19.4968960182412]
事前学習フェーズに明示的な形態的知識を組み込むことで、形態学的に豊かな言語に対するPLMの性能を向上させることができるという仮説を考察する。
本研究では, モデルが生テキスト以外の形態的手がかりを活用できるように, 様々な形態的トークン化手法を提案する。
実験により, 形態素によるトークン化は, 標準言語に依存しないトークン化と比較して, 改良された結果を示すことが示された。
論文 参考訳(メタデータ) (2023-11-01T17:02:49Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - How Suitable Are Subword Segmentation Strategies for Translating
Non-Concatenative Morphology? [26.71325671956197]
各種形態素現象のセグメンテーション戦略を評価するためのテストスイートを設計する。
形態学的に複雑な表面表現を解析・生成する学習は依然として困難である。
論文 参考訳(メタデータ) (2021-09-02T17:23:21Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Comparison of Turkish Word Representations Trained on Different
Morphological Forms [0.0]
本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
論文 参考訳(メタデータ) (2020-02-13T10:09:31Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。