論文の概要: On the Role of Morphological Information for Contextual Lemmatization
- arxiv url: http://arxiv.org/abs/2302.00407v3
- Date: Fri, 20 Oct 2023 15:31:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 13:27:43.346095
- Title: On the Role of Morphological Information for Contextual Lemmatization
- Title(参考訳): 文脈記述における形態情報の役割について
- Authors: Olia Toporkov, Rodrigo Agerri
- Abstract要約: 6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
- 参考スコア(独自算出の注目度): 7.106986689736827
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Lemmatization is a natural language processing (NLP) task which consists of
producing, from a given inflected word, its canonical form or lemma.
Lemmatization is one of the basic tasks that facilitate downstream NLP
applications, and is of particular importance for high-inflected languages.
Given that the process to obtain a lemma from an inflected word can be
explained by looking at its morphosyntactic category, including fine-grained
morphosyntactic information to train contextual lemmatizers has become common
practice, without considering whether that is the optimum in terms of
downstream performance. In order to address this issue, in this paper we
empirically investigate the role of morphological information to develop
contextual lemmatizers in six languages within a varied spectrum of
morphological complexity: Basque, Turkish, Russian, Czech, Spanish and English.
Furthermore, and unlike the vast majority of previous work, we also evaluate
lemmatizers in out-of-domain settings, which constitutes, after all, their most
common application use. The results of our study are rather surprising. It
turns out that providing lemmatizers with fine-grained morphological features
during training is not that beneficial, not even for agglutinative languages.
In fact, modern contextual word representations seem to implicitly encode
enough morphological information to obtain competitive contextual lemmatizers
without seeing any explicit morphological signal. Moreover, our experiments
suggest that the best lemmatizers out-of-domain are those using simple UPOS
tags or those trained without morphology and, finally, that current evaluation
practices for lemmatization are not adequate to clearly discriminate between
models.
- Abstract(参考訳): レムマティゼーション(英: Lemmatization)は、自然言語処理(NLP)タスクであり、与えられた単語からその標準形または補題を生成する。
Lemmatizationは、下流のNLPアプリケーションを容易にする基本的なタスクの1つであり、高機能言語において特に重要である。
文脈的レンマタイザーを訓練するための細粒度形態素合成情報を含むその形態素合成カテゴリーを下流性能の面で最適かどうかを考慮せずに、屈折語から補題を得る方法が一般的である。
この問題に対処するため,本稿では,バスク語,トルコ語,ロシア語,チェコ語,スペイン語,英語という,さまざまな形態的複雑性の範囲内で6言語で文脈的レンマタイザを開発するための形態的情報の役割について実証的に検討する。
さらに、以前の作業の大部分がそうであるように、私たちは、ドメイン外の設定において、最も一般的なアプリケーション利用を構成するレンマタイザの評価も行っています。
私たちの研究の結果はかなり驚きだ。
トレーニング中に微細な形態的特徴を持つレムマタイザーを提供することは、凝集言語でさえも有益ではないことが判明した。
実際、現代の文脈表現は、明示的な形態的信号を見ることなく、競争的な文脈補間器を得るのに十分な形態的情報を暗黙的に符号化しているように見える。
さらに,本実験では,単純な UPOS タグを用いたり,形態学を伴わない訓練を行ったりすることが,ドメイン外でのレムマタイザとして最適であることが示唆された。
関連論文リスト
- Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Morphology Without Borders: Clause-Level Morphological Annotation [8.559428282730021]
形態学を単語レベルではなく節レベルの現象と考えることを提案する。
我々は,英語,ドイツ語,トルコ語,ヘブライ語という4つの類型的に異なる言語を対象として,節レベルの形態に関する新しいデータセットを提供する。
実験の結果,節レベルタスクは各単語レベルタスクよりも格段に難しいが,言語間では同等に複雑であることがわかった。
論文 参考訳(メタデータ) (2022-02-25T17:20:28Z) - A Latent-Variable Model for Intrinsic Probing [94.61336186402615]
固有プローブ構築のための新しい潜在変数定式化を提案する。
我々は、事前訓練された表現が言語間交互に絡み合ったモルフォシンタクスの概念を発達させる経験的証拠を見出した。
論文 参考訳(メタデータ) (2022-01-20T15:01:12Z) - Evaluation of Morphological Embeddings for the Russian Language [0.0]
SkipgramObjectiveで訓練されたモルフォロジーベースの埋め込みは、既存の埋め込みモデル-FastTextを上回っません。
より複雑な、しかしモルフォロジーを知らないモデル、BERTは、単語のモルフォロジーの理解を必要とするタスクで大幅に大きなパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2021-03-11T11:59:11Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Morphological Disambiguation from Stemming Data [1.2183405753834562]
形態学的に豊かな言語であるKinyarwandaは、現在、自動形態素解析のためのツールを欠いている。
我々は、クラウドソーシングを通じて収集された新しいスリーミングデータセットから、Kinyarwandaの動詞形を形態的に曖昧にすることを学ぶ。
本実験により, 茎の屈折特性と形態素関連規則が, 曖昧さの最も識別的な特徴であることが判明した。
論文 参考訳(メタデータ) (2020-11-11T01:44:09Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Neural disambiguation of lemma and part of speech in morphologically
rich languages [0.6346772579930928]
形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にすることの問題点を考察する。
そこで本稿では, テキストの未注釈コーパスと形態素解析を用いて, 文脈におけるあいまいな単語の曖昧さを解消する手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T21:48:52Z) - Comparison of Turkish Word Representations Trained on Different
Morphological Forms [0.0]
本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
論文 参考訳(メタデータ) (2020-02-13T10:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。