論文の概要: MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts
- arxiv url: http://arxiv.org/abs/2006.12289v2
- Date: Sat, 11 Sep 2021 16:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 06:31:08.461010
- Title: MedLatinEpi and MedLatinLit: Two Datasets for the Computational
Authorship Analysis of Medieval Latin Texts
- Title(参考訳): MedLatinEpiとMedLatinLit:中世ラテン語テキストの計算オーサシップ解析のための2つのデータセット
- Authors: Silvia Corbara, Alejandro Moreo, Fabrizio Sebastiani, Mirko Tavoni
- Abstract要約: 我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能にしている。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成されており、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
- 参考スコア(独自算出の注目度): 72.16295267480838
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present and make available MedLatinEpi and MedLatinLit, two datasets of
medieval Latin texts to be used in research on computational authorship
analysis. MedLatinEpi and MedLatinLit consist of 294 and 30 curated texts,
respectively, labelled by author; MedLatinEpi texts are of epistolary nature,
while MedLatinLit texts consist of literary comments and treatises about
various subjects. As such, these two datasets lend themselves to supporting
research in authorship analysis tasks, such as authorship attribution,
authorship verification, or same-author verification. Along with the datasets
we provide experimental results, obtained on these datasets, for the authorship
verification task, i.e., the task of predicting whether a text of unknown
authorship was written by a candidate author or not. We also make available the
source code of the authorship verification system we have used, thus allowing
our experiments to be reproduced, and to be used as baselines, by other
researchers. We also describe the application of the above authorship
verification system, using these datasets as training data, for investigating
the authorship of two medieval epistles whose authorship has been disputed by
scholars.
- Abstract(参考訳): 我々は、中世ラテン文字の2つのデータセットであるMedLatinEpiとMedLatinLitを、計算オーサシップ分析の研究に使用し、利用可能とする。
MedLatinEpi と MedLatinLit はそれぞれ 294 と 30 のキュレートされたテキストで構成され、MedLatinEpi のテキストはエピストリー的な性質を持ち、MedLatinLit のテキストは文学的なコメントと様々な主題に関する論文で構成されている。
このように、これら2つのデータセットは、著者属性、著者検証、または同一著者検証などの著者分析タスクの研究を支援するのに役立つ。
これらのデータセットとともに、著者検証タスク、すなわち未知の著者のテキストが候補著者によって書かれたかどうかを予測するタスクに対して、これらのデータセットから得られた実験結果を提供する。
我々はまた、使用したオーサシップ検証システムのソースコードを利用可能にすることで、実験を再現し、他の研究者によってベースラインとして使用できるようにします。
また、これらのデータセットをトレーニングデータとして使用し、著者証書が学者によって論争されている中世の2つの論文の著者証書を調査した上で、上記著者証書検証システムの応用について述べる。
関連論文リスト
- LiMe: a Latin Corpus of Late Medieval Criminal Sentences [39.26357402982764]
本稿では,Libri sententiarum potestatis Mediolaniという一連の中世写本から抽出された325の文書のコーパスであるLiMeデータセットについて述べる。
論文 参考訳(メタデータ) (2024-04-19T12:06:28Z) - The Semantic Scholar Open Data Platform [79.4493235243312]
セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。
我々は、学術的なPDFコンテンツ抽出と知識グラフの自動構築のための最先端技術を用いて、パブリックおよびプロプライエタリなデータソースを組み合わせる。
このグラフには、構造解析されたテキスト、自然言語要約、ベクトル埋め込みなどの高度な意味的特徴が含まれている。
論文 参考訳(メタデータ) (2023-01-24T17:13:08Z) - CiteBench: A benchmark for Scientific Citation Text Generation [69.37571393032026]
CiteBenchは引用テキスト生成のベンチマークである。
CiteBenchのコードはhttps://github.com/UKPLab/citebench.comで公開しています。
論文 参考訳(メタデータ) (2022-12-19T16:10:56Z) - Cracking Double-Blind Review: Authorship Attribution with Deep Learning [43.483063713471935]
本稿では、匿名の原稿を著者に属性付けるトランスフォーマーベースのニューラルネットワークアーキテクチャを提案する。
我々は、arXivで公開されているすべての研究論文を200万冊以上の原稿に活用する。
本手法は, 論文の最大73%を正解する, 前代未聞の著者帰属精度を実現する。
論文 参考訳(メタデータ) (2022-11-14T15:50:24Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Syllabic Quantity Patterns as Rhythmic Features for Latin Authorship
Attribution [74.27826764855911]
我々は、ラテン散文の計算的オーサシップ属性のタスクにおいて、リズミカルな特徴を導出する基盤として、音節量を用いる。
2つの異なる機械学習手法を用いて3つの異なるデータセットを用いて実験を行い、音節量に基づくリズム特徴がラテン散文の著者の識別に有用であることを示した。
論文 参考訳(メタデータ) (2021-10-27T06:25:31Z) - Quasi Error-free Text Classification and Authorship Recognition in a
large Corpus of English Literature based on a Novel Feature Set [0.0]
GLECの準誤りのないテキスト分類とオーサシップ認識は,同一の5つのスタイルと5つのコンテンツ特徴を用いた手法で可能であることを示す。
我々のデータは、心理学を読むための文学や実験の、多くの未来の計算および実証的研究の道を開く。
論文 参考訳(メタデータ) (2020-10-21T07:39:55Z) - The Frankfurt Latin Lexicon: From Morphological Expansion and Word
Embeddings to SemioGraphs [97.8648124629697]
この記事は、古典的な機械学習と知的ポストコレクション、特に、基礎となる語彙資源のグラフ表現に基づく人間の解釈プロセスを含む、より包括的なレマティゼーションの理解を論じている。
論文 参考訳(メタデータ) (2020-05-21T17:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。