論文の概要: Named Entity Recognition of Historical Text via Large Language Model
- arxiv url: http://arxiv.org/abs/2508.18090v1
- Date: Mon, 25 Aug 2025 14:52:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.826314
- Title: Named Entity Recognition of Historical Text via Large Language Model
- Title(参考訳): 大規模言語モデルによる歴史的テキストの固有認識
- Authors: Shibingfeng Zhang, Giovanni Colavizza,
- Abstract要約: 名前付きエンティティ認識(NER)は、構造化されていないテキストから情報を抽出する上で重要な役割を果たす。
伝統的に、NERは大量の注釈付きトレーニングデータを必要とする教師付き機械学習アプローチを使用して対処される。
本研究では,NER に LLM を適用する可能性について,ゼロショットと少数ショットのプロンプト戦略を用いて検討した。
HIPE-2022データセットを用いて行った実験により, この環境下でのNERタスクにおいて, LLMは合理的に高い性能が得られることが示された。
- 参考スコア(独自算出の注目度): 1.5469452301122175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models have demonstrated remarkable versatility across a wide range of natural language processing tasks and domains. One such task is Named Entity Recognition (NER), which involves identifying and classifying proper names in text, such as people, organizations, locations, dates, and other specific entities. NER plays a crucial role in extracting information from unstructured textual data, enabling downstream applications such as information retrieval from unstructured text. Traditionally, NER is addressed using supervised machine learning approaches, which require large amounts of annotated training data. However, historical texts present a unique challenge, as the annotated datasets are often scarce or nonexistent, due to the high cost and expertise required for manual labeling. In addition, the variability and noise inherent in historical language, such as inconsistent spelling and archaic vocabulary, further complicate the development of reliable NER systems for these sources. In this study, we explore the feasibility of applying LLMs to NER in historical documents using zero-shot and few-shot prompting strategies, which require little to no task-specific training data. Our experiments, conducted on the HIPE-2022 (Identifying Historical People, Places and other Entities) dataset, show that LLMs can achieve reasonably strong performance on NER tasks in this setting. While their performance falls short of fully supervised models trained on domain-specific annotations, the results are nevertheless promising. These findings suggest that LLMs offer a viable and efficient alternative for information extraction in low-resource or historically significant corpora, where traditional supervised methods are infeasible.
- Abstract(参考訳): 大規模言語モデルは、広範囲の自然言語処理タスクやドメインで顕著な汎用性を示している。
そのようなタスクの1つは、名前付きエンティティ認識(NER)であり、人、組織、場所、日付、その他の特定のエンティティなど、テキストで適切な名前を特定し、分類する。
NERは、構造化されていないテキストデータから情報を取り出す上で重要な役割を担い、構造化されていないテキストからの情報検索のような下流アプリケーションを可能にする。
伝統的に、NERは大量の注釈付きトレーニングデータを必要とする教師付き機械学習アプローチを使用して対処される。
しかしながら、注釈付きデータセットは、手動ラベリングに必要な高コストと専門知識のため、しばしば不足または存在しないため、歴史的なテキストはユニークな課題である。
さらに、一貫性のない綴りや古語彙のような歴史的言語に固有の変動性とノイズは、これらの情報源に対する信頼性の高いNERシステムの開発をさらに複雑にしている。
本研究では,タスク固有のトレーニングデータはほとんど必要とせず,ゼロショットと少数ショットのプロンプト戦略を用いて,NER に LLM を適用する可能性について検討した。
HIPE-2022(Identifying Historical People, Places and other Entities)データセットを用いた実験により,この環境下でのNERタスクにおいて,LLMが合理的に高い性能を達成できることが示唆された。
パフォーマンスはドメイン固有のアノテーションでトレーニングされた完全な教師付きモデルには劣るが、それでも結果は有望である。
これらの結果から,LLMは,従来の管理手法が実現不可能な,低資源あるいは歴史的に重要なコーパスにおいて,情報抽出の有効な代替手段である可能性が示唆された。
関連論文リスト
- NER4all or Context is All You Need: Using LLMs for low-effort, high-performance NER on historical texts. A humanities informed approach [0.03187482513047917]
我々は,NERの2つの主要なNLPフレームワークにおいて,手軽に利用できる,最先端のLCMが顕著に優れていることを示す。
提案手法は,NLPツールの確立に必要なスクリプティング言語や計算能力の障壁を取り除くことで,すべての歴史学者がNERにアクセスできるようにする。
論文 参考訳(メタデータ) (2025-02-04T16:54:23Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - Leveraging Large Language Models for Web Scraping [0.0]
本研究では,言語生成用に設計したRAGモデルに対して,汎用的な高精度なデータスクレイピング手法について検討する。
よりモジュール的で解釈可能な方法で知識をキャプチャするために、私たちは、潜在的な知識検索機能を備えた事前訓練された言語モデルを使用します。
論文 参考訳(メタデータ) (2024-06-12T14:15:15Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - DIVKNOWQA: Assessing the Reasoning Ability of LLMs via Open-Domain
Question Answering over Knowledge Base and Text [73.68051228972024]
大きな言語モデル(LLM)は印象的な生成能力を示すが、内部知識に依存すると幻覚に悩まされる。
検索拡張LDMは、外部知識においてLLMを基盤とする潜在的な解決策として出現している。
論文 参考訳(メタデータ) (2023-10-31T04:37:57Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。