論文の概要: Lemmatization of Historical Old Literary Finnish Texts in Modern
Orthography
- arxiv url: http://arxiv.org/abs/2107.03266v1
- Date: Wed, 7 Jul 2021 15:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-08 17:47:14.368954
- Title: Lemmatization of Historical Old Literary Finnish Texts in Modern
Orthography
- Title(参考訳): 現代オーソグラフィーにおけるフィンランド古文学テキストの書体化
- Authors: Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar
- Abstract要約: フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。
そこで本稿では,古フィンランド語を現代綴りに標準化し,分類する手法を提案する。
我々の最良のモデルは、Agricolaによって書かれたテキストの96.3%の精度と、他の現代のアウトオブドメインテキストの87.7%の精度に達する。
- 参考スコア(独自算出の注目度): 0.9023847175654602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Texts written in Old Literary Finnish represent the first literary work ever
written in Finnish starting from the 16th century. There have been several
projects in Finland that have digitized old publications and made them
available for research use. However, using modern NLP methods in such data
poses great challenges. In this paper we propose an approach for simultaneously
normalizing and lemmatizing Old Literary Finnish into modern spelling. Our best
model reaches to 96.3\% accuracy in texts written by Agricola and 87.7\%
accuracy in other contemporary out-of-domain text. Our method has been made
freely available on Zenodo and Github.
- Abstract(参考訳): フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。
フィンランドには、古い出版物をデジタル化し、研究用に利用するためのプロジェクトがいくつかある。
しかし、そのようなデータに現代のNLP手法を用いることは大きな課題となる。
本稿では,古文学フィンランド語の現代綴りへの正規化と補間を同時に行う手法を提案する。
我々の最良のモデルは、Agricolaによって書かれたテキストの96.3\%の精度と、他の現代のアウトオブドメインテキストの87.7\%の精度に達する。
このメソッドはzenodoとgithubで自由に利用できます。
関連論文リスト
- Reddit is all you need: Authorship profiling for Romanian [49.1574468325115]
著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。
本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
論文 参考訳(メタデータ) (2024-10-13T16:27:31Z) - AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。
AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。
このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T06:06:34Z) - LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。
質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。
我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文 参考訳(メタデータ) (2024-05-16T15:02:24Z) - A ripple in time: a discontinuity in American history [49.84018914962972]
歴史的データセットの時間的側面(言語拡張と無関係)と人格的側面(著者帰属)を明らかにするための新しいアプローチを提案する。
我々は過去42人のアメリカ合衆国大統領によって与えられた連邦の住所に対する我々のアプローチを例示する。
論文 参考訳(メタデータ) (2023-12-02T17:24:17Z) - Lexicon and Rule-based Word Lemmatization Approach for the Somali
Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。
本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。
1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文 参考訳(メタデータ) (2023-08-03T14:31:57Z) - BERT-based Authorship Attribution on the Romanian Dataset called ROST [0.0]
我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。
使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。
結果は予想より優れており、マクロ精度は87%を超えることもある。
論文 参考訳(メタデータ) (2023-01-29T17:37:29Z) - TFW2V: An Enhanced Document Similarity Method for the Morphologically
Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。
本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文 参考訳(メタデータ) (2021-12-23T12:27:45Z) - Go Forth and Prosper: Language Modeling with Ancient Textual History [54.99143450580711]
我々は、lmが将来のテキストを予測するのに役立つ古代史からスパンを選択する補助機能を学ぶ。
選択されたテキストスパンはLMのコンテキストウィンドウに直接コピーされ、予測の少ないスパンを置き換える。
ウィキペディアの記事の難易度は7%、科学論文の難易度は12%減少しています。
論文 参考訳(メタデータ) (2021-04-18T06:57:30Z) - Automatic Dialect Adaptation in Finnish and its Effect on Perceived
Creativity [2.231167375820083]
我々は、方言適応がコンピュータ生成詩の創造性に対する影響について研究する。
方言が標準フィンランド語から逸脱するほど、人々は既存の評価基準を提示する傾向にある。
論文 参考訳(メタデータ) (2020-09-06T09:28:44Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z) - HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual
Morpheme Alignment [0.0]
205年前、形態学的にヘブライ・フィンランド語とギリシア・フィンランド語が手作業で作られた。
本稿では,元来の一目的データベース作成から始まる非自明な編集プロセスについて述べる。
無償のテキストエディションとアノテーションのみを使用して、再構築で終了する。
論文 参考訳(メタデータ) (2020-03-16T22:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。