論文の概要: The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs
- arxiv url: http://arxiv.org/abs/2005.10790v1
- Date: Thu, 21 May 2020 17:16:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 23:40:36.285407
- Title: The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs
- Title(参考訳): フランクフルト・ラテン文字レキシコン:形態素展開と単語埋め込みからセミグラフへ
- Authors: Alexander Mehler, Bernhard Jussen, Tim Geelhaar, Alexander Henlein,
Giuseppe Abrami, Daniel Baumartz, Tolga Uslu, Wahed Hemati
- Abstract要約: この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
- 参考スコア(独自算出の注目度): 97.8648124629697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article we present the Frankfurt Latin Lexicon (FLL), a lexical
resource for Medieval Latin that is used both for the lemmatization of Latin
texts and for the post-editing of lemmatizations. We describe recent advances
in the development of lemmatizers and test them against the Capitularies corpus
(comprising Frankish royal edicts, mid-6th to mid-9th century), a corpus
created as a reference for processing Medieval Latin. We also consider the
post-correction of lemmatizations using a limited crowdsourcing process aimed
at continuous review and updating of the FLL. Starting from the texts resulting
from this lemmatization process, we describe the extension of the FLL by means
of word embeddings, whose interactive traversing by means of SemioGraphs
completes the digital enhanced hermeneutic circle. In this way, the article
argues for a more comprehensive understanding of lemmatization, encompassing
classical machine learning as well as intellectual post-corrections and, in
particular, human computation in the form of interpretation processes based on
graph representations of the underlying lexical resources.
- Abstract(参考訳): 本稿では、ラテン文字の補題化と補題のポスト編集の両方に使用される中世ラテン語の語彙資料であるフランクフルト・ラテン・レシコン(fll)について述べる。
中世ラテン語の処理の基準として作られたコーパスであるCapitularies corpus(フランク王国の勅令である6世紀半ばから9世紀半ば)に対して、レムマタイザーの開発の最近の進歩について述べる。
また,fllの継続的なレビューと更新を目的とした限定的なクラウドソーシングプロセスを用いて,補間の修正後の検討を行う。
この補題化プロセスから得られたテキストから、単語埋め込みによるFLLの拡張を記述し、SemioGraphsによる対話的なトラバースにより、デジタル強化されたハーメニューティサークルが完成する。
このようにして、本論文は、古典的機械学習と知的後修正、特に基礎となる語彙資源のグラフ表現に基づく解釈過程の形での人間の計算を含む、より包括的かつ包括的なレムマティゼーションの理解を論じている。
関連論文リスト
- Comparative Analysis of Static and Contextual Embeddings for Analyzing Semantic Changes in Medieval Latin Charters [6.883666189245419]
本稿では,意味変化の前と後のコンクエストに関する最初の計算解析について述べる。
これは、わずかな歴史的データセットにおける静的な埋め込みと文脈的な埋め込みを体系的に比較した最初のものである。
既存の研究と一致して,文脈埋め込みは意味変化を捉える上で,静的な単語埋め込みよりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-10-11T22:19:17Z) - eFontes. Part of Speech Tagging and Lemmatization of Medieval Latin Texts.A Cross-Genre Survey [41.94295877935867]
eFontesモデルは、ポーランド中世ラテン語のUniversal Dependencies(UD)コーパスと新たに開発されたeFontesコーパスに基づいて訓練された。
再現率92.60%、音声の一部タグ付け83.29%、形態学的特徴判定88.57%である。
論文 参考訳(メタデータ) (2024-06-29T11:59:20Z) - LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文 参考訳(メタデータ) (2024-04-19T12:06:28Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - FRACAS: A FRench Annotated Corpus of Attribution relations in newS [0.0]
引用抽出と情報源帰属のために,フランス語で1676年のニュースワイヤテキストを手作業で注釈付けしたコーパスを提示する。
まず,データ選択時のコーパスの構成と選択について述べる。
次に、手動ラベリングに取り組んでいる8つのアノテータ間のアノテータ間合意について詳述する。
論文 参考訳(メタデータ) (2023-09-19T13:19:54Z) - Taxonomy Enrichment with Text and Graph Vector Representations [61.814256012166794]
我々は,既存の分類学に新たな語を加えることを目的とした分類学の豊かさの問題に対処する。
我々は,この課題に対して,少ない労力で高い結果を得られる新しい手法を提案する。
我々は、異なるデータセットにわたる最先端の結果を達成し、ミスの詳細なエラー分析を提供する。
論文 参考訳(メタデータ) (2022-01-21T09:01:12Z) - LexSubCon: Integrating Knowledge from Lexical Resources into Contextual
Embeddings for Lexical Substitution [76.615287796753]
本稿では,コンテキスト埋め込みモデルに基づくエンドツーエンドの語彙置換フレームワークであるLexSubConを紹介する。
これは文脈情報と構造化語彙資源からの知識を組み合わせることで達成される。
我々の実験によると、LexSubConはLS07とCoInCoベンチマークデータセットで従来の最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-07-11T21:25:56Z) - Lexical semantic change for Ancient Greek and Latin [61.69697586178796]
歴史的文脈における単語の正しい意味の連想は、ダイアクロニック研究の中心的な課題である。
我々は、動的ベイズ混合モデルに基づくセマンティック変化に対する最近の計算的アプローチに基づいて構築する。
本研究では,動的ベイズ混合モデルと最先端埋め込みモデルとのセマンティックな変化を系統的に比較する。
論文 参考訳(メタデータ) (2021-01-22T12:04:08Z) - Latin BERT: A Contextual Language Model for Classical Philology [7.513100214864645]
我々はラテン言語のための文脈言語モデルである Latin BERT を提示する。
古典期から21世紀にかけての様々な資料から642.7万語で訓練された。
論文 参考訳(メタデータ) (2020-09-21T17:47:44Z) - MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts [72.16295267480838]
我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
論文 参考訳(メタデータ) (2020-06-22T14:22:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。