Fugu-MT 論文翻訳(概要): MedLatinEpi and MedLatinLit: Two Datasets for the Computational Authorship Analysis of Medieval Latin Texts

論文の概要: MedLatinEpi and MedLatinLit: Two Datasets for the Computational Authorship Analysis of Medieval Latin Texts

arxiv url: http://arxiv.org/abs/2006.12289v2
Date: Sat, 11 Sep 2021 16:20:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-18 06:31:08.461010
Title: MedLatinEpi and MedLatinLit: Two Datasets for the Computational Authorship Analysis of Medieval Latin Texts
Title（参考訳）: MedLatinEpiとMedLatinLit:中世ラテン語テキストの計算オーサシップ解析のための2つのデータセット
Authors: Silvia Corbara, Alejandro Moreo, Fabrizio Sebastiani, Mirko Tavoni
Abstract要約: 我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。 MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
参考スコア（独自算出の注目度）: 72.16295267480838
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present and make available MedLatinEpi and MedLatinLit, two datasets of medieval Latin texts to be used in research on computational authorship analysis. MedLatinEpi and MedLatinLit consist of 294 and 30 curated texts, respectively, labelled by author; MedLatinEpi texts are of epistolary nature, while MedLatinLit texts consist of literary comments and treatises about various subjects. As such, these two datasets lend themselves to supporting research in authorship analysis tasks, such as authorship attribution, authorship verification, or same-author verification. Along with the datasets we provide experimental results, obtained on these datasets, for the authorship verification task, i.e., the task of predicting whether a text of unknown authorship was written by a candidate author or not. We also make available the source code of the authorship verification system we have used, thus allowing our experiments to be reproduced, and to be used as baselines, by other researchers. We also describe the application of the above authorship verification system, using these datasets as training data, for investigating the authorship of two medieval epistles whose authorship has been disputed by scholars.
Abstract（参考訳）: 我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能とする。 MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成され、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。このように、これら2つのデータセットは、著者属性、著者検証、または同一著者検証などの著者分析タスクの研究を支援するのに役立つ。これらのデータセットとともに、著者検証タスク、すなわち未知の著者のテキストが候補著者によって書かれたかどうかを予測するタスクに対して、これらのデータセットから得られた実験結果を提供する。我々はまた、使用したオーサシップ検証システムのソースコードを利用可能にすることで、実験を再現し、他の研究者によってベースラインとして使用できるようにします。また、これらのデータセットをトレーニングデータとして使用し、著者証書が学者によって論争されている中世の2つの論文の著者証書を調査した上で、上記著者証書検証システムの応用について述べる。

関連論文リスト

Loci Similes: A Benchmark for Extracting Intertextualities in Latin Literature [4.132158161225706]
Loci Similesは、古代後期の著者と古典作家のコーパスをリンクする545人の専門家による検証された並列を含む172kテキストセグメントのキュレートされたデータセットからなるラテン語のテクスチュアリティ検出のベンチマークである。我々は,最先端のLLMを用いた文間関係の検索と分類のベースラインを確立する。
論文参考訳（メタデータ） (2026-01-12T13:34:49Z)
Stylometry Analysis of Human and Machine Text for Academic Integrity [0.6558127228160233]
この研究は、盗作、創作、教育コンテンツの著者の検証など、学術的完全性への挑戦に対処する。著者の帰属とスタイル変化の検出を通じて,学生のコンテンツを認証するための自然言語処理(NLP)ベースのフレームワークを提案する。
論文参考訳（メタデータ） (2026-01-03T16:13:38Z)
FicSim: A Dataset for Multi-Faceted Semantic Similarity in Long-Form Fiction [11.216252240451183]
著者が作成したメタデータから情報を得た12軸の類似点を含む長文のフィクションのデータセットであるFICSIMをリリースする。このタスクに組込みモデルを組み込んで評価し、セマンティックなカテゴリよりも表面的な特徴にフォーカスする傾向を示す。
論文参考訳（メタデータ） (2025-10-23T18:30:19Z)
Decoding MIE: A Novel Dataset Approach Using Topic Extraction and Affiliation Parsing [0.0]
本研究は,医療情報学ヨーロッパ(MIE)会議の手続きから得られた新しいデータセットを紹介する。我々は,「健康技術・情報学研究」誌の4,606論文からメタデータと要約を抽出し,分析した。
論文参考訳（メタデータ） (2024-10-06T19:34:23Z)
LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文参考訳（メタデータ） (2024-04-19T12:06:28Z)
The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文参考訳（メタデータ） (2023-01-24T17:13:08Z)
CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。 CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文参考訳（メタデータ） (2022-12-19T16:10:56Z)
Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文参考訳（メタデータ） (2022-11-14T15:50:24Z)
PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文参考訳（メタデータ） (2022-09-30T11:08:39Z)
Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。 2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文参考訳（メタデータ） (2021-10-27T06:25:31Z)
The Frankfurt Latin Lexicon: From Morphological Expansion and Word Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文参考訳（メタデータ） (2020-05-21T17:16:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。