Fugu-MT 論文翻訳(概要): Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography

論文の概要: Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography

arxiv url: http://arxiv.org/abs/2107.03266v1
Date: Wed, 7 Jul 2021 15:01:13 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-08 17:47:14.368954
Title: Lemmatization of Historical Old Literary Finnish Texts in Modern Orthography
Title（参考訳）: 現代オーソグラフィーにおけるフィンランド古文学テキストの書体化
Authors: Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar
Abstract要約: フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。そこで本稿では,古フィンランド語を現代綴りに標準化し,分類する手法を提案する。我々の最良のモデルは、Agricolaによって書かれたテキストの96.3%の精度と、他の現代のアウトオブドメインテキストの87.7%の精度に達する。
参考スコア（独自算出の注目度）: 0.9023847175654602
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Texts written in Old Literary Finnish represent the first literary work ever written in Finnish starting from the 16th century. There have been several projects in Finland that have digitized old publications and made them available for research use. However, using modern NLP methods in such data poses great challenges. In this paper we propose an approach for simultaneously normalizing and lemmatizing Old Literary Finnish into modern spelling. Our best model reaches to 96.3\% accuracy in texts written by Agricola and 87.7\% accuracy in other contemporary out-of-domain text. Our method has been made freely available on Zenodo and Github.
Abstract（参考訳）: フィンランド語で書かれたテキストは、16世紀からフィンランド語で書かれた最初の文学作品である。フィンランドには、古い出版物をデジタル化し、研究用に利用するためのプロジェクトがいくつかある。しかし、そのようなデータに現代のNLP手法を用いることは大きな課題となる。本稿では,古文学フィンランド語の現代綴りへの正規化と補間を同時に行う手法を提案する。我々の最良のモデルは、Agricolaによって書かれたテキストの96.3\%の精度と、他の現代のアウトオブドメインテキストの87.7\%の精度に達する。このメソッドはzenodoとgithubで自由に利用できます。

関連論文リスト

Vision-Enabled LLMs in Historical Lexicography: Digitising and Enriching Estonian-German Dictionaries from the 17th and 18th Centuries [0.0]
本稿では,2022年から2025年にかけてエストニア語研究所で行われた大規模言語モデル(LLM)の適用に関する研究について述べる。著者らは3つの主要な領域に対処する: 現代語形と意味を持つ歴史的辞書を充実させる; 視覚対応のLLMを使用して、ゴシック文字(Fraktur)で印刷されたソース上でテキスト認識を行う; 統一されたクロスソースデータセットを作成する準備をする。
論文参考訳（メタデータ） (2025-10-09T08:29:22Z)
Evaluating Text Style Transfer: A Nine-Language Benchmark for Text Detoxification [66.69370876902222]
本研究は,9言語にわたるテキストデトックス化システムの評価に関する総合的多言語研究である。我々は,現代のニューラルベース評価モデルの有効性を,プロンプトベースLCM-as-a-judgeアプローチと併用して評価する。本研究は,より信頼性の高い多言語TST評価パイプラインを設計するための実用的なレシピを提供する。
論文参考訳（メタデータ） (2025-07-21T12:38:07Z)
ParsiPy: NLP Toolkit for Historical Persian Texts in Python [1.637832760977605]
この研究は、音声の書き起こしを処理し、古代のテキストを分析するためのNLPツールキットであるParsiPyを導入している。 ParsiPyは、トークン化、補題化、音声タグ付け、音素から音素への変換、単語の埋め込みのためのモジュールを提供する。
論文参考訳（メタデータ） (2025-03-22T16:21:29Z)
Reddit is all you need: Authorship profiling for Romanian [49.1574468325115]
著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
論文参考訳（メタデータ） (2024-10-13T16:27:31Z)
AceParse: A Comprehensive Dataset with Diverse Structured Texts for Academic Literature Parsing [82.33075210051129]
AceParseは構造化テキストのパースをサポートするために設計された最初の包括的なデータセットである。 AceParseに基づいて、さまざまな構造化テキストを正確に解析するマルチモーダルモデルAceを微調整した。このモデルは、F1スコアで4.1%、ジャカルド類似度で5%、以前の最先端技術よりも優れていた。
論文参考訳（メタデータ） (2024-09-16T06:06:34Z)
LFED: A Literary Fiction Evaluation Dataset for Large Language Models [58.85989777743013]
元々は中国語で書かれたか、中国語に翻訳された95の文学小説を収集し、数世紀にわたって幅広い話題を扱っている。質問分類を8つのカテゴリーで定義し,1,304の質問の作成を導く。我々は、小説の特定の属性(小説の種類、文字番号、出版年など)がLLMのパフォーマンスに与える影響を詳細に分析する。
論文参考訳（メタデータ） (2024-05-16T15:02:24Z)
A ripple in time: a discontinuity in American history [49.84018914962972]
歴史的データセットの時間的側面(言語拡張と無関係)と人格的側面(著者帰属)を明らかにするための新しいアプローチを提案する。我々は過去42人のアメリカ合衆国大統領によって与えられた連邦の住所に対する我々のアプローチを例示する。
論文参考訳（メタデータ） (2023-12-02T17:24:17Z)
Lexicon and Rule-based Word Lemmatization Approach for the Somali Language [0.0]
レマタイズ(Lemmatization)は、単語の形態的派生を根本形に変化させることによってテキストを正規化する技法である。本稿では,ソマリ語におけるテキスト・レマティゼーションの先駆者となる。 1247の根語の初期語彙と7173の派生的関連用語に辞書に存在しない単語を補綴する規則が組み込まれている。
論文参考訳（メタデータ） (2023-08-03T14:31:57Z)
BERT-based Authorship Attribution on the Romanian Dataset called ROST [0.0]
我々はルーマニア語で書かれたテキストの著者数を検出するためにモデルを使用する。使用するデータセットはバランスが悪く、すなわち著者1人当たりのテキスト数に大きな違いがある。結果は予想より優れており、マクロ精度は87%を超えることもある。
論文参考訳（メタデータ） (2023-01-29T17:37:29Z)
TFW2V: An Enhanced Document Similarity Method for the Morphologically Rich Finnish Language [0.5801044612920816]
本研究は,形態学的に豊かな言語であるフィンランド語に対する現在のアプローチの実験に焦点をあてる。本稿では,長文文書と限られた量のデータの両方を扱う上で,高い効率性を示す簡易な方法TFW2Vを提案する。
論文参考訳（メタデータ） (2021-12-23T12:27:45Z)
Go Forth and Prosper: Language Modeling with Ancient Textual History [54.99143450580711]
我々は、lmが将来のテキストを予測するのに役立つ古代史からスパンを選択する補助機能を学ぶ。選択されたテキストスパンはLMのコンテキストウィンドウに直接コピーされ、予測の少ないスパンを置き換える。ウィキペディアの記事の難易度は7%、科学論文の難易度は12%減少しています。
論文参考訳（メタデータ） (2021-04-18T06:57:30Z)
Automatic Dialect Adaptation in Finnish and its Effect on Perceived Creativity [2.231167375820083]
我々は、方言適応がコンピュータ生成詩の創造性に対する影響について研究する。方言が標準フィンランド語から逸脱するほど、人々は既存の評価基準を提示する傾向にある。
論文参考訳（メタデータ） (2020-09-06T09:28:44Z)
Forensic Authorship Analysis of Microblogging Texts Using N-Grams and Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文参考訳（メタデータ） (2020-03-24T19:32:11Z)
HELFI: a Hebrew-Greek-Finnish Parallel Bible Corpus with Cross-Lingual Morpheme Alignment [0.0]
205年前、形態学的にヘブライ・フィンランド語とギリシア・フィンランド語が手作業で作られた。本稿では,元来の一目的データベース作成から始まる非自明な編集プロセスについて述べる。無償のテキストエディションとアノテーションのみを使用して、再構築で終了する。
論文参考訳（メタデータ） (2020-03-16T22:10:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。