論文の概要: HistNERo: Historical Named Entity Recognition for the Romanian Language
- arxiv url: http://arxiv.org/abs/2405.00155v1
- Date: Tue, 30 Apr 2024 19:05:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-02 17:16:17.713912
- Title: HistNERo: Historical Named Entity Recognition for the Romanian Language
- Title(参考訳): HistNERo: ルーマニア語における歴史的名前付きエンティティ認識
- Authors: Andrei-Marius Avram, Andreea Iuga, George-Vlad Manolache, Vlad-Cristian Matei, Răzvan-Gabriel Micliuş, Vlad-Andrei Muntean, Manuel-Petru Sorlescu, Dragoş-Andrei Şerban, Adrian-Dinu Urse, Vasile Păiş, Dumitru-Clementin Cercel,
- Abstract要約: HistNERoは、歴史的新聞で名前付きエンティティ認識のためのルーマニア初のコーパスである。
データセットには323kのテキストトークンが含まれており、19世紀の半分以上をカバーしている。
8人のルーマニア語話者が5つの名前のエンティティでデータセットに注釈を付けた。
- 参考スコア(独自算出の注目度): 1.5924012820163407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces HistNERo, the first Romanian corpus for Named Entity Recognition (NER) in historical newspapers. The dataset contains 323k tokens of text, covering more than half of the 19th century (i.e., 1817) until the late part of the 20th century (i.e., 1990). Eight native Romanian speakers annotated the dataset with five named entities. The samples belong to one of the following four historical regions of Romania, namely Bessarabia, Moldavia, Transylvania, and Wallachia. We employed this proposed dataset to perform several experiments for NER using Romanian pre-trained language models. Our results show that the best model achieved a strict F1-score of 55.69%. Also, by reducing the discrepancies between regions through a novel domain adaption technique, we improved the performance on this corpus to a strict F1-score of 66.80%, representing an absolute gain of more than 10%.
- Abstract(参考訳): この研究はヒストネロ (HistNERo) というルーマニア初の名前付きエンティティ認識 (NER) コーパスを歴史新聞に紹介している。
データセットには323kのテキストトークンが含まれており、20世紀後半(1990年)まで19世紀の半分以上(すなわち1817年)をカバーしている。
8人のルーマニア語話者が5つの名前のエンティティでデータセットに注釈を付けた。
この標本は、ベッサビア、モルダヴィア、トランシルヴァニア、ワラキアの4つの歴史的地域のうちの1つである。
提案したデータセットを用いて,ルーマニアの事前学習言語モデルを用いたNER実験を行った。
その結果,F1スコアは55.69%と厳格であった。
また,新しい領域適応技術により領域間の差を小さくすることで,このコーパスの性能を66.80%の厳密なF1スコアに改善し,絶対的な10%以上の利得を示した。
関連論文リスト
- Reddit is all you need: Authorship profiling for Romanian [49.1574468325115]
著者プロファイリング(英: Authorship profiling)とは、著者の著作に基づいて著者の特徴を特定する過程である。
本稿では,ルーマニア語における短いテキストのコーパスについて紹介する。
論文 参考訳(メタデータ) (2024-10-13T16:27:31Z) - Exploring Fine-tuned Generative Models for Keyphrase Selection: A Case Study for Russian [1.565361244756411]
我々は、ロシア語の科学文献におけるキーフレーズ選択の特定のタスクに対して、微調整による生成トランスフォーマーモデルを適用する方法について検討した。
実験は、数学とコンピュータ科学、歴史、医学、言語学という4つの領域のロシアの科学的抽象のテキスト上で行われた。
生成モデル、すなわちmBARTの使用は、ロシア語の3つのキーフレーズ抽出ベースラインよりも、ドメイン内のパフォーマンス(BERTScoreが4.9%、ROUGE-1が9.0%、F1スコアが12.2%)が向上した。
論文 参考訳(メタデータ) (2024-09-16T18:15:28Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - RoDia: A New Dataset for Romanian Dialect Identification from Speech [28.458975585210947]
RoDiaはルーマニア語の方言識別のための最初のデータセットである。
ルーマニアの5つの異なる地域からの音声サンプルが含まれており、都市部と農村部の両方をカバーしている。
上位スコアモデルは、マクロF1スコアが59.83%、マイクロF1スコアが62.08%に達し、タスクが困難であることを示している。
論文 参考訳(メタデータ) (2023-09-06T21:56:24Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Improving Persian Relation Extraction Models by Data Augmentation [0.0]
本システムの結果と結果について述べる。
PERLEXをベースデータセットとして使用し、テキスト前処理のステップを適用して拡張する。
次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。
論文 参考訳(メタデータ) (2022-03-29T08:08:47Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - A Precisely Xtreme-Multi Channel Hybrid Approach For Roman Urdu
Sentiment Analysis [0.8812173669205371]
本稿では,Word2vec,FastText,Gloveという,最も広く使われているアプローチを用いて構築した3つのニューラルワード埋め込みについて述べる。
公開されているベンチマークデータセットが欠如していることを考えると、初となるRoman Urduデータセットを提供しており、正、負、中立のクラスに対して注釈付けされた3241の感情で構成されている。
最先端の機械とディープラーニングの手法を、F1スコアで9%、F1スコアで4%で上回る、極めて極端なマルチチャネルハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-03-11T04:08:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。