論文の概要: Context Aware Lemmatization and Morphological Tagging Method in Turkish
- arxiv url: http://arxiv.org/abs/2501.02361v1
- Date: Sat, 04 Jan 2025 19:12:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:25.263385
- Title: Context Aware Lemmatization and Morphological Tagging Method in Turkish
- Title(参考訳): トルコ語における文脈認識の文体化と形態的タグ付け法
- Authors: Cagri Sayallar,
- Abstract要約: 単語の語根探索法である補題化モデルと、単語の文法的知識を予測する形態的タグ付けモデルを示す。
提示されたモデルはトルコ語向けに開発され、どちらのモデルも単語の意味を考慮に入れて予測を行う。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The smallest part of a word that defines the word is called a word root. Word roots are used to increase success in many applications since they simplify the word. In this study, the lemmatization model, which is a word root finding method, and the morphological tagging model, which predicts the grammatical knowledge of the word, are presented. The presented model was developed for Turkish, and both models make predictions by taking the meaning of the word into account. In the literature, there is no lemmatization study that is sensitive to word meaning in Turkish. For this reason, the present study shares the model and the results obtained from the model on Turkish lemmatization for the first time in the literature. In the present study, in the lemmatization and morphological tagging models, bidirectional LSTM is used for the spelling of words, and the Turkish BERT model is used for the meaning of words. The models are trained using the IMST and PUD datasets from Universal Dependencies. The results from the training of the models were compared with the results from the SIGMORPHON 2019 competition. The results of the comparisons revealed that our models were superior.
- Abstract(参考訳): 単語を定義する単語の最小の部分は、単語ルートと呼ばれる。
単語のルートは、単語を単純化するため、多くのアプリケーションで成功を高めるために使用される。
本研究では,単語の語根探索手法である補題化モデルと,単語の文法的知識を予測する形態的タグ付けモデルについて述べる。
提示されたモデルはトルコ語向けに開発され、どちらのモデルも単語の意味を考慮に入れて予測を行う。
文学では、トルコ語で単語の意味に敏感な補題化研究はない。
このため,本研究では,トルコのレマティゼーションモデルから得られたモデルと結果が文献で初めて共有されている。
本研究では, 単語の綴りに双方向LSTMを用い, 単語の意味にトルコ語BERTモデルを用いる。
モデルは、Universal DependenciesからIMSTとPUDデータセットを使用してトレーニングされる。
モデルのトレーニングの結果は、SIGMORPHON 2019コンペティションの結果と比較された。
比較の結果,我々のモデルの方が優れていることがわかった。
関連論文リスト
- A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - A Comprehensive Analysis of Static Word Embeddings for Turkish [0.058520770038704165]
基本的には、非文脈的(静的)モデルと文脈的モデルである2種類の単語埋め込みモデルが存在する。
トルコ語における内在的・外在的評価設定における文脈的・非文脈的モデルの性能の比較と評価を行った。
分析の結果は、異なるタイプのNLPタスクにおける異なる埋め込みモデルの適合性に関する洞察を与える。
論文 参考訳(メタデータ) (2024-05-13T14:23:37Z) - Not wacky vs. definitely wacky: A study of scalar adverbs in pretrained
language models [0.0]
BERT、RoBERTa、GPT-3といった現代の事前訓練された言語モデルは、古典的な静的単語の埋め込みよりも論理的なタスクでより良いパフォーマンスを期待している。
本稿では,BERT,RoBERTa,GPT-2,GPT-3が,これらの共通語に対する一般人的な知識を示す範囲について検討する。
論理的な意味のいくつかの側面を捉えているにもかかわらず、モデルは人間のパフォーマンスにかなり劣っていることが分かりました。
論文 参考訳(メタデータ) (2023-05-25T18:56:26Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z) - A Comparative Study of Lexical Substitution Approaches based on Neural
Language Models [117.96628873753123]
本稿では,一般的なニューラル言語とマスキング言語モデルの大規模比較研究について述べる。
目的語に関する情報を適切に注入すれば,SOTA LMs/MLMsによって達成された既に競合する結果をさらに改善できることを示す。
論文 参考訳(メタデータ) (2020-05-29T18:43:22Z) - Overestimation of Syntactic Representationin Neural Language Models [16.765097098482286]
構文構造を誘導するモデルの能力を決定する一般的な方法の1つは、テンプレートに従って生成された文字列上でモデルを訓練し、それらの文字列と表面的に類似した文字列を異なる構文で区別するモデルの能力をテストすることである。
本稿では,2つの非シンタクティックなベースライン言語モデルを用いた最近の論文の肯定的な結果を再現することで,このアプローチの根本的な問題を説明する。
論文 参考訳(メタデータ) (2020-04-10T15:13:03Z) - An enhanced Tree-LSTM architecture for sentence semantic modeling using
typed dependencies [0.0]
Tree-based Long short term memory (LSTM) ネットワークは、言語テキストの意味をモデル化するための最先端技術となっている。
本稿では、シーケンスの2つの入力間の関係をモデル化できる、リレーショナルゲートLSTMと呼ばれる拡張LSTMアーキテクチャを提案する。
また、文依存解析構造と依存型を用いて、文の意味を密度の高いベクトルに埋め込むTyped Dependency Tree-LSTMモデルを導入する。
論文 参考訳(メタデータ) (2020-02-18T18:10:03Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。