論文の概要: Comparison of Turkish Word Representations Trained on Different
Morphological Forms
- arxiv url: http://arxiv.org/abs/2002.05417v1
- Date: Thu, 13 Feb 2020 10:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 13:11:42.083673
- Title: Comparison of Turkish Word Representations Trained on Different
Morphological Forms
- Title(参考訳): 形態の異なるトルコ語の単語表現の比較
- Authors: G\"okhan G\"uler, A. C\"uneyd Tantu\u{g}
- Abstract要約: 本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Increased popularity of different text representations has also brought many
improvements in Natural Language Processing (NLP) tasks. Without need of
supervised data, embeddings trained on large corpora provide us meaningful
relations to be used on different NLP tasks. Even though training these vectors
is relatively easy with recent methods, information gained from the data
heavily depends on the structure of the corpus language. Since the popularly
researched languages have a similar morphological structure, problems occurring
for morphologically rich languages are mainly disregarded in studies. For
morphologically rich languages, context-free word vectors ignore morphological
structure of languages. In this study, we prepared texts in morphologically
different forms in a morphologically rich language, Turkish, and compared the
results on different intrinsic and extrinsic tasks. To see the effect of
morphological structure, we trained word2vec model on texts which lemma and
suffixes are treated differently. We also trained subword model fastText and
compared the embeddings on word analogy, text classification, sentimental
analysis, and language model tasks.
- Abstract(参考訳): 異なるテキスト表現の人気が高まり、自然言語処理(NLP)タスクにも多くの改善が加えられた。
教師付きデータなしで、大きなコーパスでトレーニングされた埋め込みは、異なるnlpタスクで使用される意味のある関係を提供する。
これらのベクトルの訓練は最近の手法では比較的容易であるが、データから得られる情報はコーパス言語の構造に大きく依存する。
一般に研究されている言語は、同様の形態構造を持つため、形態学的に豊かな言語で発生する問題は、主に研究において無視されている。
形態素豊かな言語では、文脈自由語ベクターは言語の形態素構造を無視する。
本研究では,形態学的にリッチなトルコ語で形態的に異なる形態のテキストを作成し,本質的課題と外部的課題の比較を行った。
形態的構造の影響を調べるために,補題と接尾辞の扱い方が異なるテキストに対してword2vecモデルを訓練した。
また、サブワードモデルfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
関連論文リスト
- Why do language models perform worse for morphologically complex languages? [0.913127392774573]
凝集型言語と融合型言語のパフォーマンスギャップを示す新たな証拠が発見された。
この性能ギャップの原因として, トークン化剤の形態的アライメント, トークン化品質, データセットサイズと測定の差異の3つが考えられる。
以上の結果から,言語モデルが形態的類型学に基づいて学習することが困難あるいは容易な言語は存在しないことが示唆された。
論文 参考訳(メタデータ) (2024-11-21T15:06:51Z) - UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - On the Role of Morphological Information for Contextual Lemmatization [7.106986689736827]
6言語における文脈補間器の開発における形態情報の役割について検討する。
バスク語、トルコ語、ロシア語、チェコ語、スペイン語、英語。
実験により、ドメイン外で最高のレマタイザは、単純な UPOS タグを使ったものか、形態学なしで訓練されたものであることが示唆されている。
論文 参考訳(メタデータ) (2023-02-01T12:47:09Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Low-Dimensional Structure in the Space of Language Representations is
Reflected in Brain Responses [62.197912623223964]
言語モデルと翻訳モデルは,単語の埋め込み,構文的・意味的タスク,将来的な単語埋め込みとの間を円滑に介在する低次元構造を示す。
この表現埋め込みは、各特徴空間が、fMRIを用いて記録された自然言語刺激に対する人間の脳反応にどれだけうまく対応しているかを予測することができる。
これは、埋め込みが脳の自然言語表現構造の一部を捉えていることを示唆している。
論文 参考訳(メタデータ) (2021-06-09T22:59:12Z) - Neural disambiguation of lemma and part of speech in morphologically
rich languages [0.6346772579930928]
形態的に豊かな言語における不明瞭な単語の補題と発話の一部を曖昧にすることの問題点を考察する。
そこで本稿では, テキストの未注釈コーパスと形態素解析を用いて, 文脈におけるあいまいな単語の曖昧さを解消する手法を提案する。
論文 参考訳(メタデータ) (2020-07-12T21:48:52Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。