論文の概要: Lemmatization of Historical Old Literary Finnish Texts in Modern
Orthography
- arxiv url: http://arxiv.org/abs/2107.03266v1
- Date: Wed, 7 Jul 2021 15:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 17:47:14.368954
- Title: Lemmatization of Historical Old Literary Finnish Texts in Modern
Orthography
- Title(参考訳): 現代オーソグラフィーにおけるフィンランド古文学テキストの書体化
- Authors: Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar
- Abstract要約: フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。
そこで本稿では,古フィンランド語を現代綴りに標準化し,分類する手法を提案する。
我々の最良のモデルは、Agricolaによって書かれたテキストの96.3%の精度と、他の現代のアウトオブドメインテキストの87.7%の精度に達する。
- 参考スコア(独自算出の注目度): 0.9023847175654602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Texts written in Old Literary Finnish represent the first literary work ever
written in Finnish starting from the 16th century. There have been several
projects in Finland that have digitized old publications and made them
available for research use. However, using modern NLP methods in such data
poses great challenges. In this paper we propose an approach for simultaneously
normalizing and lemmatizing Old Literary Finnish into modern spelling. Our best
model reaches to 96.3\% accuracy in texts written by Agricola and 87.7\%
accuracy in other contemporary out-of-domain text. Our method has been made
freely available on Zenodo and Github.
- Abstract(参考訳): フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。
フィンランドには、古い出版物をデジタル化し、研究用に利用するためのプロジェクトがいくつかある。
しかし、そのようなデータに現代のNLP手法を用いることは大きな課題となる。
本稿では,古文学フィンランド語の現代綴りへの正規化と補間を同時に行う手法を提案する。
我々の最良のモデルは、Agricolaによって書かれたテキストの96.3\%の精度と、他の現代のアウトオブドメインテキストの87.7\%の精度に達する。
このメソッドはzenodoとgithubで自由に利用できます。
関連論文リスト
- Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - BERT-based Authorship Attribution on the Romanian Dataset called ROST [0.0]
我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。
使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。
結果は予想より優れており、マクロ精度は87%を超えることもある。
論文 参考訳(メタデータ) (2023-01-29T17:37:29Z) - Expanding Pretrained Models to Thousands More Languages via
Lexicon-based Adaptation [133.7313847857935]
我々の研究は、NLPメソッドが現在の技術で不足している何千もの言語にどのように適応できるかを強調した。
3つのタスクにまたがる19の非表現言語に対して、我々の手法は、それぞれ追加のモノリンガルテキストによる最大5点と15点の改善をもたらす。
論文 参考訳(メタデータ) (2022-03-17T16:48:22Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - \textit{NewsEdits}: A Dataset of Revision Histories for News Articles
(Technical Report: Data Processing) [89.77347919191774]
textitNewsEditsは、ニュース記事の改訂履歴の最初の公開データセットです。
1,278,804条と、22以上の英語とフランス語の新聞から4,609,430版がある。
論文 参考訳(メタデータ) (2021-04-19T21:15:30Z) - Go Forth and Prosper: Language Modeling with Ancient Textual History [54.99143450580711]
我々は、lmが将来のテキストを予測するのに役立つ古代史からスパンを選択する補助機能を学ぶ。
選択されたテキストスパンはLMのコンテキストウィンドウに直接コピーされ、予測の少ないスパンを置き換える。
ウィキペディアの記事の難易度は7%、科学論文の難易度は12%減少しています。
論文 参考訳(メタデータ) (2021-04-18T06:57:30Z) - Near-imperceptible Neural Linguistic Steganography via Self-Adjusting
Arithmetic Coding [88.31226340759892]
本稿では,ニューラルネットワークモデルに基づく自己調整型算術符号を用いた秘密メッセージを符号化する新しい言語ステガノグラフィー手法を提案する。
人間の評価によると、生成されたカバーテキストの51%は、実際に盗聴器を騙すことができる。
論文 参考訳(メタデータ) (2020-10-01T20:40:23Z) - Automatic Dialect Adaptation in Finnish and its Effect on Perceived
Creativity [2.231167375820083]
我々は、方言適応がコンピュータ生成詩の創造性に対する影響について研究する。
方言が標準フィンランド語から逸脱するほど、人々は既存の評価基準を提示する傾向にある。
論文 参考訳(メタデータ) (2020-09-06T09:28:44Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z) - HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual
Morpheme Alignment [0.0]
205年前、形態学的にヘブライ・フィンランド語とギリシア・フィンランド語が手作業で作られた。
本稿では,元来の一目的データベース作成から始まる非自明な編集プロセスについて述べる。
無償のテキストエディションとアノテーションのみを使用して、再構築で終了する。
論文 参考訳(メタデータ) (2020-03-16T22:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。