論文の概要: Evaluation of Morphological Embeddings for the Russian Language
- arxiv url: http://arxiv.org/abs/2103.06628v1
- Date: Thu, 11 Mar 2021 11:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 19:31:32.237839
- Title: Evaluation of Morphological Embeddings for the Russian Language
- Title(参考訳): ロシア語における形態的埋め込みの評価
- Authors: Vitaly Romanov and Albina Khusainova
- Abstract要約: SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A number of morphology-based word embedding models were introduced in recent
years. However, their evaluation was mostly limited to English, which is known
to be a morphologically simple language. In this paper, we explore whether and
to what extent incorporating morphology into word embeddings improves
performance on downstream NLP tasks, in the case of morphologically rich
Russian language. NLP tasks of our choice are POS tagging, Chunking, and NER --
for Russian language, all can be mostly solved using only morphology without
understanding the semantics of words. Our experiments show that
morphology-based embeddings trained with Skipgram objective do not outperform
existing embedding model -- FastText. Moreover, a more complex, but morphology
unaware model, BERT, allows to achieve significantly greater performance on the
tasks that presumably require understanding of a word's morphology.
- Abstract(参考訳): 近年,形態素に基づく単語埋め込みモデルが数多く導入されている。
しかし、その評価は主に、形態学的に単純な言語として知られている英語に限定されていた。
本稿では,形態学的に豊かなロシア語の場合,単語埋め込みに形態素を組み込むことで下流のnlpタスクのパフォーマンスが向上するかどうかについて検討する。
我々の選択したNLPタスクはPOSタグ付け、チャンキング、NERです - ロシア語では、語の意味を理解せずに形態学のみを使用して、全てを解決できます。
当社の実験では、skipgram objectiveでトレーニングされた形態素ベースの埋め込みが、既存の組み込みモデルであるfasttextを上回っていないことが示されています。
さらに、より複雑だがモルフォロジーを意識しない BERT は、単語のモルフォロジーを理解する必要のあるタスクにおいて、大幅なパフォーマンスを達成することができる。
関連論文リスト
- On the Role of Morphological Information for Contextual Lemmatization [7.106986689736827]
6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
論文 参考訳(メタデータ) (2023-02-01T12:47:09Z) - UniMorph 4.0: Universal Morphology [104.69846084893298]
本稿は,過去2年間のいくつかの前線における展開と改善について述べる。
多くの言語学者による共同作業により、30の絶滅危惧言語を含む67の新しい言語が追加された。
前回のUniMorphリリースに合わせて,16言語で形態素セグメンテーションを施したデータベースも拡張した。
論文 参考訳(メタデータ) (2022-05-07T09:19:02Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - Morph Call: Probing Morphosyntactic Content of Multilingual Transformers [2.041108289731398]
Morph Callは、異なる形態を持つ4つのインド・ヨーロッパ語(英語、フランス語、ドイツ語、ロシア語)の46の探索タスクからなるスイートである。
我々は4つの多言語トランスのモルフォシンタクティックな内容を分析するために,ニューロン,層および表現レベルのイントロスペクション技術の組み合わせを用いる。
その結果, POSタグの微調整により, 探索性能が向上し, モデル間でのモルフォシンタクティック知識の分配方法が変化することが示唆された。
論文 参考訳(メタデータ) (2021-04-26T19:53:00Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。