論文の概要: eFontes. Part of Speech Tagging and Lemmatization of Medieval Latin Texts.A Cross-Genre Survey
- arxiv url: http://arxiv.org/abs/2407.00418v1
- Date: Sat, 29 Jun 2024 11:59:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 03:15:45.272658
- Title: eFontes. Part of Speech Tagging and Lemmatization of Medieval Latin Texts.A Cross-Genre Survey
- Title(参考訳): eFontes, Part of Speech Tagging and Lemmatization of Medieval Latin Texts. A Cross-Genre Survey
- Authors: Krzysztof Nowak, Jędrzej Ziębura, Krzysztof Wróbel, Aleksander Smywiński-Pohl,
- Abstract要約: eFontesモデルは、ポーランド中世ラテン語のUniversal Dependencies(UD)コーパスと新たに開発されたeFontesコーパスに基づいて訓練された。
再現率92.60%、音声の一部タグ付け83.29%、形態学的特徴判定88.57%である。
- 参考スコア(独自算出の注目度): 41.94295877935867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study introduces the eFontes models for automatic linguistic annotation of Medieval Latin texts, focusing on lemmatization, part-of-speech tagging, and morphological feature determination. Using the Transformers library, these models were trained on Universal Dependencies (UD) corpora and the newly developed eFontes corpus of Polish Medieval Latin. The research evaluates the models' performance, addressing challenges such as orthographic variations and the integration of Latinized vernacular terms. The models achieved high accuracy rates: lemmatization at 92.60%, part-of-speech tagging at 83.29%, and morphological feature determination at 88.57%. The findings underscore the importance of high-quality annotated corpora and propose future enhancements, including extending the models to Named Entity Recognition.
- Abstract(参考訳): 本研究は,中世ラテン文字の自動言語アノテーションのためのeFontesモデルを紹介し,レマタイズ,パート・オブ・音声タグ付け,形態的特徴決定に着目した。
Transformersライブラリを使用して、これらのモデルは、ポーランド中世ラテン語のUniversal Dependencies(UD)コーパスと、新たに開発されたeFontesコーパスに基づいて訓練された。
この研究はモデルの性能を評価し、正書法の変化やラテン文字の語彙の統合といった課題に対処する。
再現率92.60%、音声の一部タグ付け83.29%、形態学的特徴判定88.57%である。
この結果から,高品質アノテートコーパスの重要性を浮き彫りにし,名前付きエンティティ認識へのモデル拡張など,今後の拡張を提案する。
関連論文リスト
- UzMorphAnalyser: A Morphological Analysis Model for the Uzbek Language Using Inflectional Endings [0.0]
接尾辞は、単語に付加的な意味と文法的機能を加えることによって、単語の形態解析において重要な役割を果たす。
本稿では,ユーズベク語の形態解析のモデル化について述べる。
提案されたモデルに基づく開発ツールは、WebベースのアプリケーションとオープンソースのPythonライブラリとして利用できる。
論文 参考訳(メタデータ) (2024-05-23T05:06:55Z) - LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文 参考訳(メタデータ) (2024-04-19T12:06:28Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Latin BERT: A Contextual Language Model for Classical Philology [7.513100214864645]
我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
論文 参考訳(メタデータ) (2020-09-21T17:47:44Z) - Labeling Explicit Discourse Relations using Pre-trained Language Models [0.0]
最先端のモデルは手作りの機能を使ってFスコアの45%をわずかに上回っている。
事前訓練された言語モデルは、微調整された場合、言語的特徴を置き換えるのに十分強力であることがわかった。
言語的な特徴を使わずに、モデルが知識集約型モデルより優れているのは、これが初めてである。
論文 参考訳(メタデータ) (2020-06-21T17:18:01Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。