論文の概要: The InviTE Corpus: Annotating Invectives in Tudor English Texts for Computational Modeling
- arxiv url: http://arxiv.org/abs/2509.22345v1
- Date: Fri, 26 Sep 2025 13:42:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.463262
- Title: The InviTE Corpus: Annotating Invectives in Tudor English Texts for Computational Modeling
- Title(参考訳): InviTE Corpus: コンピュータ・モデリングのためのテクスチャ・インクリメンタル・テキストにおけるインベクティヴの注釈付け
- Authors: Sophie Spliethoff, Sanne Hoeken, Silke Schwandt, Sina Zarrieß, Özge Alaçam,
- Abstract要約: 我々は、事前処理とデータ選択を通じて生データから反復的なアノテーションプロセスまで、ワークフローの概要を述べる。
InviTEコーパス(InviTE corpus) - ほぼ2000年の近世英語(EModE)文のコーパス。
- 参考スコア(独自算出の注目度): 8.04579348985549
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we aim at the application of Natural Language Processing (NLP) techniques to historical research endeavors, particularly addressing the study of religious invectives in the context of the Protestant Reformation in Tudor England. We outline a workflow spanning from raw data, through pre-processing and data selection, to an iterative annotation process. As a result, we introduce the InviTE corpus -- a corpus of almost 2000 Early Modern English (EModE) sentences, which are enriched with expert annotations regarding invective language throughout 16th-century England. Subsequently, we assess and compare the performance of fine-tuned BERT-based models and zero-shot prompted instruction-tuned large language models (LLMs), which highlights the superiority of models pre-trained on historical data and fine-tuned to invective detection.
- Abstract(参考訳): 本稿では,歴史的研究への自然言語処理(NLP)の応用をめざし,特にテューダー・イングランドにおけるプロテスタント宗教改革の文脈における宗教的意図の研究に焦点をあてる。
我々は、事前処理とデータ選択を通じて生データから反復的なアノテーションプロセスまで、ワークフローの概要を述べる。
その結果、約2000の現代英語文(EModE)のコーパスである InviTE corpus を導入し、16世紀のイングランド全土において、侵入的言語に関する専門家の注釈が豊富である。
その後,過去データに事前学習されたモデルや,直観的検出のために微調整されたモデルの優越性を強調した,細調整BERTモデルとゼロショット誘導命令型大言語モデル(LLM)の性能評価と比較を行った。
関連論文リスト
- Large corpora and large language models: a replicable method for automating grammatical annotation [0.0]
英語評価動詞構築における形式的変化の事例研究に応用された方法論的パイプライン「consider X (as) (to be) Y」を紹介する。
少数のトレーニングデータだけで、保留中のテストサンプルで90%以上の精度でモデルに到達します。
本研究は, 文法的構成と文法的変化および変化に関する幅広いケーススタディに対して, 結果の一般化可能性について論じる。
論文 参考訳(メタデータ) (2024-11-18T03:29:48Z) - MACT: Model-Agnostic Cross-Lingual Training for Discourse Representation Structure Parsing [4.536003573070846]
意味表現解析モデルのための言語間学習戦略を導入する。
事前訓練された言語モデルにエンコードされた言語間のアライメントを利用する。
実験では、英語、ドイツ語、イタリア語、オランダ語におけるDRS節とグラフ解析の大幅な改善が示されている。
論文 参考訳(メタデータ) (2024-06-03T07:02:57Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - Sentence Representation Learning with Generative Objective rather than
Contrastive Objective [86.01683892956144]
句再構成に基づく新たな自己教師型学習目標を提案する。
我々の生成学習は、十分な性能向上を達成し、現在の最先端のコントラスト法よりも優れています。
論文 参考訳(メタデータ) (2022-10-16T07:47:46Z) - Selective Annotation Makes Language Models Better Few-Shot Learners [97.07544941620367]
大規模な言語モデルはコンテキスト内学習を実行でき、いくつかのタスクデモから新しいタスクを学ぶことができる。
本研究は、新しい自然言語タスクのためのデータセット作成において、文脈内学習がもたらす意味について考察する。
本稿では,無教師付きグラフベースの選択的アノテーションであるvoke-kを提案する。
論文 参考訳(メタデータ) (2022-09-05T14:01:15Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - HistBERT: A Pre-trained Language Model for Diachronic Lexical Semantic
Analysis [3.2851864672627618]
本稿では,英語のバランスを保ったコーパスに基づいて,事前学習したBERTベースの言語モデルHistBERTを提案する。
単語類似性および意味変化解析における有望な結果を報告する。
論文 参考訳(メタデータ) (2022-02-08T02:53:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。