論文の概要: On the Role of Morphological Information for Contextual Lemmatization
- arxiv url: http://arxiv.org/abs/2302.00407v3
- Date: Fri, 20 Oct 2023 15:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:27:43.346095
- Title: On the Role of Morphological Information for Contextual Lemmatization
- Title(参考訳): 文脈記述における形態情報の役割について
- Authors: Olia Toporkov, Rodrigo Agerri
- Abstract要約: 6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
- 参考スコア(独自算出の注目度): 7.106986689736827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lemmatization is a natural language processing (NLP) task which consists of
producing, from a given inflected word, its canonical form or lemma.
Lemmatization is one of the basic tasks that facilitate downstream NLP
applications, and is of particular importance for high-inflected languages.
Given that the process to obtain a lemma from an inflected word can be
explained by looking at its morphosyntactic category, including fine-grained
morphosyntactic information to train contextual lemmatizers has become common
practice, without considering whether that is the optimum in terms of
downstream performance. In order to address this issue, in this paper we
empirically investigate the role of morphological information to develop
contextual lemmatizers in six languages within a varied spectrum of
morphological complexity: Basque, Turkish, Russian, Czech, Spanish and English.
Furthermore, and unlike the vast majority of previous work, we also evaluate
lemmatizers in out-of-domain settings, which constitutes, after all, their most
common application use. The results of our study are rather surprising. It
turns out that providing lemmatizers with fine-grained morphological features
during training is not that beneficial, not even for agglutinative languages.
In fact, modern contextual word representations seem to implicitly encode
enough morphological information to obtain competitive contextual lemmatizers
without seeing any explicit morphological signal. Moreover, our experiments
suggest that the best lemmatizers out-of-domain are those using simple UPOS
tags or those trained without morphology and, finally, that current evaluation
practices for lemmatization are not adequate to clearly discriminate between
models.
- Abstract(参考訳): レムマティゼーション(英: Lemmatization)は、自然言語処理(NLP)タスクであり、与えられた単語からその標準形または補題を生成する。
Lemmatizationは、下流のNLPアプリケーションを容易にする基本的なタスクの1つであり、高機能言語において特に重要である。
文脈的レンマタイザーを訓練するための細粒度形態素合成情報を含むその形態素合成カテゴリーを下流性能の面で最適かどうかを考慮せずに、屈折語から補題を得る方法が一般的である。
この問題に対処するため,本稿では,バスク語,トルコ語,ロシア語,チェコ語,スペイン語,英語という,さまざまな形態的複雑性の範囲内で6言語で文脈的レンマタイザを開発するための形態的情報の役割について実証的に検討する。
さらに、以前の作業の大部分がそうであるように、私たちは、ドメイン外の設定において、最も一般的なアプリケーション利用を構成するレンマタイザの評価も行っています。
私たちの研究の結果はかなり驚きだ。
トレーニング中に微細な形態的特徴を持つレムマタイザーを提供することは、凝集言語でさえも有益ではないことが判明した。
実際、現代の文脈表現は、明示的な形態的信号を見ることなく、競争的な文脈補間器を得るのに十分な形態的情報を暗黙的に符号化しているように見える。
さらに,本実験では,単純な UPOS タグを用いたり,形態学を伴わない訓練を行ったりすることが,ドメイン外でのレムマタイザとして最適であることが示唆された。
関連論文リスト
- A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - Evaluating Shortest Edit Script Methods for Contextual Lemmatization [6.0158981171030685]
現代の文脈補綴器は、単語の形式を補題に変換するために、しばしば自動的に誘導された短い編集スクリプト(SES)に依存している。
これまでの研究では,SESが最終補修性能にどのような影響を及ぼすかは調査されていない。
ケーシング操作と編集操作を別々に計算することは、全体として有益であるが、高機能な形態を持つ言語には、より明確に有用であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:28:24Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - A Latent-Variable Model for Intrinsic Probing [93.62808331764072]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。