論文の概要: Token and Span Classification for Entity Recognition in French Historical Encyclopedias
- arxiv url: http://arxiv.org/abs/2506.02872v1
- Date: Tue, 03 Jun 2025 13:37:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.712183
- Title: Token and Span Classification for Entity Recognition in French Historical Encyclopedias
- Title(参考訳): フランス史百科事典におけるエンティティ認識のためのトークンとスパンの分類
- Authors: Ludovic Moncla, Hédi Zeghidi,
- Abstract要約: 歴史的テキストにおける名前付きエンティティ認識(NER)は、非標準化言語、古文書正書法、ネストまたは重複エンティティによる固有の課題を示す。
本研究は、古典的条件ランダムフィールド(CRF)やスパシーベースのモデルからトランスフォーマーベースのアーキテクチャまで、さまざまなNERアプローチのベンチマークを行う。
実験は18世紀のフランスの百科事典から派生した豊富な注釈付きコーパスであるGeoEDdAデータセット上で行われた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) in historical texts presents unique challenges due to non-standardized language, archaic orthography, and nested or overlapping entities. This study benchmarks a diverse set of NER approaches, ranging from classical Conditional Random Fields (CRFs) and spaCy-based models to transformer-based architectures such as CamemBERT and sequence-labeling models like Flair. Experiments are conducted on the GeoEDdA dataset, a richly annotated corpus derived from 18th-century French encyclopedias. We propose framing NER as both token-level and span-level classification to accommodate complex nested entity structures typical of historical documents. Additionally, we evaluate the emerging potential of few-shot prompting with generative language models for low-resource scenarios. Our results demonstrate that while transformer-based models achieve state-of-the-art performance, especially on nested entities, generative models offer promising alternatives when labeled data are scarce. The study highlights ongoing challenges in historical NER and suggests avenues for hybrid approaches combining symbolic and neural methods to better capture the intricacies of early modern French text.
- Abstract(参考訳): 歴史的テキストにおける名前付きエンティティ認識(NER)は、非標準化言語、古文書正書法、ネストまたは重複エンティティによる固有の課題を示す。
この研究では、古典的条件ランダムフィールド(CRF)やスパシーベースのモデルから、CamemBERTのようなトランスフォーマーベースのアーキテクチャやFrairのようなシーケンスラベルモデルまで、さまざまなNERアプローチのベンチマークを行った。
実験は18世紀のフランスの百科事典から派生した豊富な注釈付きコーパスであるGeoEDdAデータセット上で行われた。
我々は,NERをトークンレベルとスパンレベルの両方の分類として,歴史的文書に典型的な複雑なネストされたエンティティ構造に対応することを提案する。
さらに、低リソースシナリオのための生成言語モデルを用いて、数発のプロンプトの出現可能性を評価する。
以上の結果から,トランスフォーマーを用いたモデルでは,特にネストしたエンティティ上での最先端のパフォーマンスを実現する一方で,ラベル付きデータが不足している場合には,生成モデルが有望な代替手段を提供することが示された。
この研究は、歴史的NERにおける進行中の課題を強調し、象徴的手法と神経的手法を組み合わせるハイブリッドアプローチの道のりを示唆している。
関連論文リスト
- Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文 参考訳(メタデータ) (2022-11-20T05:46:29Z) - Entity-Assisted Language Models for Identifying Check-worthy Sentences [23.792877053142636]
テキスト分類とランキングのための統一的なフレームワークを提案する。
本フレームワークは,文の意味的分析と,文内の識別されたエンティティから得られる追加のエンティティ埋め込みを組み合わせる。
CLEFの2019年と2020年のCheckThat! Labsから公開されている2つのデータセットを使用して、我々のフレームワークの有効性を広く評価する。
論文 参考訳(メタデータ) (2022-11-19T12:03:30Z) - DiffusER: Discrete Diffusion via Edit-based Reconstruction [88.62707047517914]
DiffusERは、拡散モデルに基づくテキストの編集ベースの生成モデルである。
機械翻訳、要約、スタイル転送にまたがるいくつかのタスクにおいて、自動回帰モデルと競合する可能性がある。
また、標準的な自己回帰モデルに適さないような、他の種類の世代も実行することができる。
論文 参考訳(メタデータ) (2022-10-30T16:55:23Z) - Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and
Approaches to Modeling [2.741266294612776]
非同化語彙借入に富んだスペイン語ニュースワイヤの注釈付きコーパスを導入する。
我々は,CRF,BiLSTM-CRF,Transformer-basedモデルなど,複数のシーケンスラベリングモデルがどのように動作するかを評価する。
論文 参考訳(メタデータ) (2022-03-30T09:46:51Z) - Author Clustering and Topic Estimation for Short Texts [69.54017251622211]
同じ文書中の単語間の強い依存をモデル化することにより、遅延ディリクレ割当を拡張できる新しいモデルを提案する。
同時にユーザをクラスタ化し、ホック後のクラスタ推定の必要性を排除しています。
我々の手法は、短文で生じる問題に対する従来のアプローチよりも、-または----------- で機能する。
論文 参考訳(メタデータ) (2021-06-15T20:55:55Z) - Are Neural Language Models Good Plagiarists? A Benchmark for Neural
Paraphrase Detection [5.847824494580938]
トランスフォーマーアーキテクチャに基づく最近の言語モデルを用いたパラフレーズ記事からなるベンチマークを提案する。
我々の貢献は、パラフレーズ検出システムに関する将来的な研究を後押しし、大量の原文およびパラフレーズ文書のコレクションを提供する。
論文 参考訳(メタデータ) (2021-03-23T11:01:35Z) - FLERT: Document-Level Features for Named Entity Recognition [5.27294900215066]
名前付きエンティティ認識(NER)に対する現在の最先端のアプローチは、典型的には文レベルでテキストを考慮する。
NERにトランスフォーマーベースのモデルを使用することで、ドキュメントレベルの機能をキャプチャするための自然なオプションが提供される。
論文 参考訳(メタデータ) (2020-11-13T16:13:59Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Neural Entity Linking: A Survey of Models Based on Deep Learning [82.43751915717225]
本調査では,2015年以降に開発されたニューラルエンティティリンク(EL)システムの包括的記述について報告する。
その目標は、ニューラルエンティティリンクシステムの設計機能を体系化し、それらのパフォーマンスを一般的なベンチマーク上の注目すべき古典的手法と比較することである。
この調査はエンティティリンクの応用に焦点をあて、最近出現した、深い事前訓練されたマスキング言語モデルを強化するユースケースに焦点を当てている。
論文 参考訳(メタデータ) (2020-05-31T18:02:26Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。