論文の概要: hmBERT: Historical Multilingual Language Models for Named Entity
Recognition
- arxiv url: http://arxiv.org/abs/2205.15575v1
- Date: Tue, 31 May 2022 07:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:54:48.175757
- Title: hmBERT: Historical Multilingual Language Models for Named Entity
Recognition
- Title(参考訳): hmBERT: 名前付きエンティティ認識のための歴史的多言語言語モデル
- Authors: Stefan Schweter, Luisa M\"arz, Katharina Schmid and Erion \c{C}ano
- Abstract要約: 我々は、人物、場所、組織を史料で特定するためにNERに取り組む。
本研究では, 歴史的ドイツ語, 英語, フランス語, スウェーデン語, フィンランド語について, 大規模な歴史的言語モデルを訓練することによってNERに取り組む。
- 参考スコア(独自算出の注目度): 0.6226609932118123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compared to standard Named Entity Recognition (NER), identifying persons,
locations, and organizations in historical texts forms a big challenge. To
obtain machine-readable corpora, the historical text is usually scanned and
optical character recognition (OCR) needs to be performed. As a result, the
historical corpora contain errors. Also, entities like location or organization
can change over time, which poses another challenge. Overall historical texts
come with several peculiarities that differ greatly from modern texts and large
labeled corpora for training a neural tagger are hardly available for this
domain. In this work, we tackle NER for historical German, English, French,
Swedish, and Finnish by training large historical language models. We
circumvent the need for labeled data by using unlabeled data for pretraining a
language model. hmBERT, a historical multilingual BERT-based language model is
proposed, with different sizes of it being publicly released. Furthermore, we
evaluate the capability of hmBERT by solving downstream NER as part of this
year's HIPE-2022 shared task and provide detailed analysis and insights. For
the Multilingual Classical Commentary coarse-grained NER challenge, our tagger
HISTeria outperforms the other teams' models for two out of three languages.
- Abstract(参考訳): 標準的な名前付きエンティティ認識(NER)と比較して、人物、場所、組織を歴史的テキストで識別することは大きな課題となる。
機械可読コーパスを得るには、通常、過去のテキストをスキャンし、光学文字認識(OCR)を行う必要がある。
その結果、歴史的コーパスには誤りが含まれている。
また、場所や組織のようなエンティティは時間とともに変化し、別の課題を引き起こします。
全体的な歴史的テキストには、現代のテキストと大きく異なるいくつかの特徴があり、ニューラルタグを訓練するための大きなラベル付きコーパスはこの領域ではほとんど利用できない。
本研究では,歴史ドイツ語,英語,フランス語,スウェーデン語,フィンランド語のnerに対して,大規模な歴史言語モデルの訓練を行った。
言語モデルの事前学習にラベル付きデータを用いることでラベル付きデータの必要性を回避する。
歴史的多言語BERTベースの言語モデルであるhmBERTが提案されている。
さらに、今年のHIPE-2022共有タスクの一環として、下流NERを解くことでhmBERTの能力を評価し、詳細な分析と洞察を提供する。
Multilingual Classical Commentary coarse-fine NER Challengeでは、タグ付けのHISTeriaが3言語中2言語で他チームのモデルを上回っています。
関連論文リスト
- Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - GujiBERT and GujiGPT: Construction of Intelligent Information Processing
Foundation Language Models for Ancient Texts [11.289265479095956]
GujiBERTとGujiGPT言語モデルは、古代のテキストの知的情報処理に特化した基礎モデルである。
これらのモデルは、単純化された漢字と伝統的な漢字の両方を含む広範なデータセットで訓練されている。
これらのモデルは、公開データセットを使用して、さまざまなバリデーションタスクで例外的なパフォーマンスを示しています。
論文 参考訳(メタデータ) (2023-07-11T15:44:01Z) - Transfer Learning across Several Centuries: Machine and Historian
Integrated Method to Decipher Royal Secretary's Diary [1.105375732595832]
歴史的テキストにおけるNERは、注釈付きコーパスの不足、多言語多様さ、様々なノイズ、現代の言語モデルとは全く異なる慣習といった課題に直面している。
本稿では,何世紀にもわたって記録された韓国の歴史的コーパス(SeungJeongWonと名づけられた王立書記官日記)を紹介する。
論文 参考訳(メタデータ) (2023-06-26T11:00:35Z) - People and Places of Historical Europe: Bootstrapping Annotation
Pipeline and a New Corpus of Named Entities in Late Medieval Texts [0.0]
我々はチェコ語、ラテン語、ドイツ語を中心に書かれた中世後期の憲章から3.6万文の新しいNERコーパスを開発する。
我々は、既知の歴史人物や場所のリストと、未注釈の歴史的テキストのコーパスから始めることができ、情報検索技術を用いて、NER注釈コーパスを自動的にブートストラップできることを示す。
論文 参考訳(メタデータ) (2023-05-26T08:05:01Z) - Multilingual Event Extraction from Historical Newspaper Adverts [42.987470570997694]
本稿では,歴史文献の新たな領域からのイベント抽出の課題について述べる。
我々は,近代植民地時代の新聞広告からなる,英語,フランス語,オランダ語に新しい多言語データセットを導入する。
注記データが少ない場合でも,問題を抽出的QAタスクとして定式化することにより,驚くほど優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-18T12:40:41Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - From FreEM to D'AlemBERT: a Large Corpus and a Language Model for Early
Modern French [57.886210204774834]
我々は、近世フランス語(歴史的フランス語:16$textth$から18$textth$ century)のためのNLPツールを開発する取り組みを提示する。
我々は、近世フランス語のtextFreEM_textmax$ corpusと、$textFreEM_textmax$でトレーニングされたRoBERTaベースの言語モデルであるD'AlemBERTを提示する。
論文 参考訳(メタデータ) (2022-02-18T22:17:22Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Summarising Historical Text in Modern Languages [13.886432536330805]
本稿では,言語の歴史形式の文書を対応する現代語で要約する,歴史的テキスト要約の課題を紹介する。
これは、歴史家やデジタル人文科学研究者にとって基本的に重要なルーチンであるが、自動化されていない。
我々は、数百年前のドイツや中国の歴史的ニュースを現代ドイツ語や中国語で要約した高品質なゴールドスタンダードテキスト要約データセットをコンパイルする。
論文 参考訳(メタデータ) (2021-01-26T13:00:07Z) - XL-WiC: A Multilingual Benchmark for Evaluating Semantic
Contextualization [98.61159823343036]
単語の意味を正確にモデル化する能力を評価するために,Word-in-Context データセット (WiC) を提案する。
我々は、XL-WiCという大規模なマルチ言語ベンチマークを提案し、12の新しい言語でゴールドスタンダードを特徴付けました。
実験結果から、ターゲット言語にタグ付けされたインスタンスが存在しない場合でも、英語データのみにトレーニングされたモデルは、競争力のあるパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T15:32:00Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。