論文の概要: MariNER: A Dataset for Historical Brazilian Portuguese Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2506.23051v1
- Date: Sun, 29 Jun 2025 01:23:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.690751
- Title: MariNER: A Dataset for Historical Brazilian Portuguese Named Entity Recognition
- Title(参考訳): MariNER: ブラジルの歴史的名前付きエンティティ認識のためのデータセット
- Authors: João Lucas Luz Lima Sarcinelli, Marina Lages Gonçalves Teixeira, Jade Bortot de Paiva, Diego Furtado Silva,
- Abstract要約: 本論では,20世紀初頭のブラジルにおける最初のゴールドスタンダードデータセットである textitMapeamento e Anotaccoes para NER (Mapping of Historical Records for NER) について概説する。
- 参考スコア(独自算出の注目度): 1.5224436211478216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) is a fundamental Natural Language Processing (NLP) task that aims to identify and classify entity mentions in texts across different categories. While languages such as English possess a large number of high-quality resources for this task, Brazilian Portuguese still lacks in quantity of gold-standard NER datasets, especially when considering specific domains. Particularly, this paper considers the importance of NER for analyzing historical texts in the context of digital humanities. To address this gap, this work outlines the construction of MariNER: \textit{Mapeamento e Anota\c{c}\~oes de Registros hIst\'oricos para NER} (Mapping and Annotation of Historical Records for NER), the first gold-standard dataset for early 20th-century Brazilian Portuguese, with more than 9,000 manually annotated sentences. We also assess and compare the performance of state-of-the-art NER models for the dataset.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、さまざまなカテゴリにわたるテキスト中のエンティティの参照を識別し分類することを目的とした、自然言語処理(NLP)の基本的なタスクである。
英語などの言語は、このタスクのために多くの高品質なリソースを持っているが、ブラジルポルトガル語は、特に特定のドメインを考慮する際に、ゴールドスタンダードなNERデータセットの量が不足している。
特に,デジタル人文科学における歴史的テキスト分析におけるNERの重要性について考察する。
このギャップに対処するために、この研究はMariNERの構築の概要を概説する: \textit{Mapeamento e Anota\c{c}\~oes de Registros hIst\'oricos para NER} (Mapping and Annotation of Historical Records for NER)は、20世紀初頭のブラジルにおける最初のゴールドスタンダードデータセットであり、9000以上の手作業による注釈付き文がある。
また、データセットの最先端NERモデルの性能を評価し、比較する。
関連論文リスト
- EDU-NER-2025: Named Entity Recognition in Urdu Educational Texts using XLM-RoBERTa with X (formerly Twitter) [41.29397464848022]
EDU-NER-2025という名前の、教育ドメインに関連する13の最もユニークなエンティティを含む、手動で注釈付きデータセットを作成します。
フォーマルなウルドゥー語文でよく見られる形態的複雑性や曖昧さといった重要な言語的課題に対処し、分析する。
論文 参考訳(メタデータ) (2025-04-25T07:50:58Z) - NERCat: Fine-Tuning for Enhanced Named Entity Recognition in Catalan [0.0]
本稿では,カタルーニャ語テキストに特有なNER性能向上を目的とした,GLiNER[1]モデルの微調整版であるNERCatを紹介する。
筆者らは、手動でアノテートされたカタルーニャ語テレビの文字起こしのデータセットを使用して、そのモデルを訓練し、微調整し、政治、スポーツ、文化といった分野に焦点を当てた。
評価の結果, 精度, リコール, F1スコアが著しく向上した。
論文 参考訳(メタデータ) (2025-03-18T11:44:19Z) - ESNLIR: A Spanish Multi-Genre Dataset with Causal Relationships [0.0]
自然言語推論(NLI)は、自然言語処理(NLP)分野において重要な分野である。
本稿ではNLI, ESNLIR, 特に因果関係を考慮したマルチジャンルのスペイン語データセットを作成することに焦点を当てる。
この結果は、ジャンルの豊かさが、モデルを一般化する能力の豊かさに本質的に寄与していることを示している。
論文 参考訳(メタデータ) (2025-03-11T18:32:16Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - IXA/Cogcomp at SemEval-2023 Task 2: Context-enriched Multilingual Named
Entity Recognition using Knowledge Bases [53.054598423181844]
3つのステップからなる新しいNERカスケードアプローチを提案する。
我々は、細粒度および新興物質を正確に分類する上で、外部知識基盤の重要性を実証的に示す。
本システムは,低リソース言語設定においても,マルチコネラ2共有タスクにおいて頑健な性能を示す。
論文 参考訳(メタデータ) (2023-04-20T20:30:34Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。