論文の概要: On the Role of Morphological Information for Contextual Lemmatization
- arxiv url: http://arxiv.org/abs/2302.00407v1
- Date: Wed, 1 Feb 2023 12:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:09:11.664508
- Title: On the Role of Morphological Information for Contextual Lemmatization
- Title(参考訳): 文脈記述における形態情報の役割について
- Authors: Olia Toporkov, Rodrigo Agerri
- Abstract要約: 本稿では,6言語における文脈補間器開発における形態情報の役割を実証的に検討する。
学習中のきめ細かい形態的特徴は、凝集言語に限らず、それほど有益ではないことがわかりました。
- 参考スコア(独自算出の注目度): 5.9647924003148365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lemmatization is a Natural Language Processing (NLP) task which consists of
producing, from a given inflected word, its canonical form or lemma.
Lemmatization is one of the basic tasks that facilitate downstream NLP
applications, and is of particular importance for high-inflected languages.
Given that the process to obtain a lemma from an inflected word can be
explained by looking at its morphosyntactic category, including fine-grained
morphosyntactic information to train contextual lemmatizers has become common
practice, without analyzing whether that is the optimum in terms of downstream
performance. Thus, in this paper we empirically investigate the role of
morphological information to develop contextual lemmatizers in six languages
within a varied spectrum of morphological complexity: Basque, Turkish, Russian,
Czech, Spanish and English. Furthermore, and unlike the vast majority of
previous work, we also evaluate lemmatizers in out-of-domain settings, which
constitutes, after all, their most common application use. The results of our
study are rather surprising: (i) providing lemmatizers with fine-grained
morphological features during training is not that beneficial, not even for
agglutinative languages; (ii) in fact, modern contextual word representations
seem to implicitly encode enough morphological information to obtain good
contextual lemmatizers without seeing any explicit morphological signal; (iii)
the best lemmatizers out-of-domain are those using simple UPOS tags or those
trained without morphology; (iv) current evaluation practices for lemmatization
are not adequate to clearly discriminate between models.
- Abstract(参考訳): レンマティゼーション(lemmatization)は自然言語処理(nlp)のタスクで、与えられた屈折語から、その標準形または補題を生成する。
Lemmatizationは、下流のNLPアプリケーションを容易にする基本的なタスクの1つであり、高機能言語において特に重要である。
文脈的レンマタイザーを訓練するための細粒度形態素合成情報を含むその形態素合成カテゴリーを,下流性能の観点で最適かどうかを解析することなく解析することにより,屈折語から補題を得る方法が一般的である。
そこで本稿では,バスク語,トルコ語,ロシア語,チェコ語,スペイン語,英語の6言語における文脈的レンマタイザーの開発における形態的情報の役割を実証的に検討する。
さらに、以前の作業の大部分がそうであるように、私たちは、ドメイン外の設定において、最も一般的なアプリケーション利用を構成するレンマタイザの評価も行っています。
私たちの研究結果はかなり驚きます。
一 訓練中、微粒な形態的特徴を有する補綴器を提供することは、不可解な言語であっても有益ではない。
(ii)事実,現代の文脈語表現は,明示的な形態素信号を見ることなく,良好な文脈的補間子を得るのに十分な形態素情報を暗黙的に符号化しているように思われる。
三 ドメイン外の最高の補綴器は、単純なPOSタグを使用するもの、又は形態学なしで訓練するもの
(iv)現行の補間評価手法では,モデル間を明確に判別するには不十分である。
関連論文リスト
- A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - Evaluating Shortest Edit Script Methods for Contextual Lemmatization [6.0158981171030685]
現代の文脈補綴器は、単語の形式を補題に変換するために、しばしば自動的に誘導された短い編集スクリプト(SES)に依存している。
これまでの研究では,SESが最終補修性能にどのような影響を及ぼすかは調査されていない。
ケーシング操作と編集操作を別々に計算することは、全体として有益であるが、高機能な形態を持つ言語には、より明確に有用であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:28:24Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。