論文の概要: Ground Truth Generation for Multilingual Historical NLP using LLMs
- arxiv url: http://arxiv.org/abs/2511.14688v1
- Date: Tue, 18 Nov 2025 17:25:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:53.232554
- Title: Ground Truth Generation for Multilingual Historical NLP using LLMs
- Title(参考訳): LLMを用いた多言語歴史的NLPのための地中真実生成
- Authors: Clovis Gladstone, Zhao Fang, Spencer Dean Stewart,
- Abstract要約: 本稿では, 大規模言語モデル(LLM)を用いて, 歴史的フランス語(16世紀~20世紀)と漢文の地文的注釈を作成する方法について概説する。
私たちはspurCyを微調整し、POS(Part-of-speech)アノテーション、補題化、名前付きエンティティ認識の期間別テストにおいて、大幅な改善を実現しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Historical and low-resource NLP remains challenging due to limited annotated data and domain mismatches with modern, web-sourced corpora. This paper outlines our work in using large language models (LLMs) to create ground-truth annotations for historical French (16th-20th centuries) and Chinese (1900-1950) texts. By leveraging LLM-generated ground truth on a subset of our corpus, we were able to fine-tune spaCy to achieve significant gains on period-specific tests for part-of-speech (POS) annotations, lemmatization, and named entity recognition (NER). Our results underscore the importance of domain-specific models and demonstrate that even relatively limited amounts of synthetic data can improve NLP tools for under-resourced corpora in computational humanities research.
- Abstract(参考訳): 歴史的かつ低リソースのNLPは、アノテーション付きデータと、現代的なWebソースコーパスとのドメインミスマッチのため、依然として困難である。
本稿では, 大規模言語モデル(LLM)を用いて, 歴史的フランス語(16世紀から20世紀) と中国語(161900-1950年) の接地真実アノテーションの作成について概説する。
コーパスのサブセット上でLLM生成した基底真理を利用して、spurCyを微調整し、部分音声(POS)アノテーション、補題化、名前付きエンティティ認識(NER)の期間別テストにおいて、大きな利益を得ることができた。
本研究は, ドメイン固有モデルの重要性を明らかにし, 比較的限られた合成データであっても, 計算人文科学研究において, 未資源コーパスのための NLP ツールを改良できることを実証した。
関連論文リスト
- Modern Models, Medieval Texts: A POS Tagging Study of Old Occitan [0.1979158763744267]
大規模言語モデル (LLM) は自然言語処理において顕著な能力を示した。
本研究では,古オクシタンのPOSタグ付けにおけるオープンソースのLDMの性能について検討した。
論文 参考訳(メタデータ) (2025-03-10T20:16:01Z) - Culturally-Nuanced Story Generation for Reasoning in Low-Resource Languages: The Case of Javanese and Sundanese [12.208154616426052]
大規模言語モデル(LLM)がジャワ語とスンダ語で文化的にニュアンスな物語を生成できるかどうかを検証する。
筆者らは,(1) LLM支援ストーリーに文化的手がかりを付与し,(2)インドネシアのベンチマークから機械翻訳を行い,(3)ネイティブなストーリーを提示する3つのデータ生成戦略を比較した。
各データセットのモデルを微調整し、分類と生成のための人為的なテストセットで評価する。
論文 参考訳(メタデータ) (2025-02-18T15:14:58Z) - NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach [0.03187482513047917]
我々は,NERの2つの主要なNLPフレームワークにおいて,手軽に利用できる,最先端のLCMが顕著に優れていることを示す。
提案手法は,NLPツールの確立に必要なスクリプティング言語や計算能力の障壁を取り除くことで,すべての歴史学者がNERにアクセスできるようにする。
論文 参考訳(メタデータ) (2025-02-04T16:54:23Z) - Open or Closed LLM for Lesser-Resourced Languages? Lessons from Greek [2.3499129784547663]
我々は,7つのNLPタスクにおけるオープンソース(Llama-70b)とクローズドソース(GPT-4o mini)の大規模言語モデルの性能評価を行った。
第2に,事前学習における LLM による潜在的なデータ使用量を評価するツールとして,オーソリティ属性を再定義することにより,ギリシャ NLP の範囲を広げる。
第3に,STE(Summarize, Translate, Embed)法は,従来のTF-IDF法よりも長文のクラスタリングに優れる,法的NLPのケーススタディを示す。
論文 参考訳(メタデータ) (2025-01-22T12:06:16Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - CoAnnotating: Uncertainty-Guided Work Allocation between Human and Large
Language Models for Data Annotation [94.59630161324013]
本稿では,非構造化テキストの大規模共同アノテーションのための新しいパラダイムであるCoAnnotatingを提案する。
我々の実証研究は、CoAnnotatingが、異なるデータセット上の結果から作業を割り当てる効果的な手段であることを示し、ランダムベースラインよりも最大21%のパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-10-24T08:56:49Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。