論文の概要: WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning
Experiments for Slovak Named Entity Recognition
- arxiv url: http://arxiv.org/abs/2304.04026v1
- Date: Sat, 8 Apr 2023 14:37:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-11 18:17:39.986037
- Title: WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning
Experiments for Slovak Named Entity Recognition
- Title(参考訳): wikigoldsk: スロバキアのエンティティ認識のための注釈付きデータセット、ベースライン、およびマイショット学習実験
- Authors: D\'avid \v{S}uba and Marek \v{S}uppa and Jozef Kub\'ik and Endre
Hamerlik and Martin Tak\'a\v{c}
- Abstract要約: WikiGoldSKは,スロバキアのNERデータセットを初めてラベル付けした人体である。
我々は、最先端の多言語事前学習言語モデルを評価することで、それをベンチマークする。
数ショットの実験を行い、標準データセットのトレーニングがより良い結果をもたらすことを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Named Entity Recognition (NER) is a fundamental NLP tasks with a wide range
of practical applications. The performance of state-of-the-art NER methods
depends on high quality manually anotated datasets which still do not exist for
some languages. In this work we aim to remedy this situation in Slovak by
introducing WikiGoldSK, the first sizable human labelled Slovak NER dataset. We
benchmark it by evaluating state-of-the-art multilingual Pretrained Language
Models and comparing it to the existing silver-standard Slovak NER dataset. We
also conduct few-shot experiments and show that training on a sliver-standard
dataset yields better results. To enable future work that can be based on
Slovak NER, we release the dataset, code, as well as the trained models
publicly under permissible licensing terms at
https://github.com/NaiveNeuron/WikiGoldSK.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は、広範囲の実用的な応用を持つ基本的なNLPタスクである。
最先端のNERメソッドのパフォーマンスは、一部の言語ではまだ存在しない高品質な手動注釈付きデータセットに依存している。
本研究は,スロバキアにおけるこの状況を改善するために,最初の人ラベル付きスロバキアNERデータセットであるWikiGoldSKを導入する。
我々は、最先端の多言語事前訓練言語モデルを評価し、既存の銀標準スロバキアNERデータセットと比較することでベンチマークを行う。
また,少数の実験を行い,sliver標準データセットでのトレーニングがよりよい結果をもたらすことを示す。
スロバキアのNERをベースとした将来の作業を可能にするため、データセット、コード、トレーニングされたモデルをhttps://github.com/NaiveNeuron/WikiGoldSK.comで公に許可されたライセンス条件の下でリリースします。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset [6.633914491587503]
本稿では,Alpacaを用いた文脈検索学習データセットを提案する。
このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。
本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T06:53:12Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - An Open-Source Dataset and A Multi-Task Model for Malay Named Entity
Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。
NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文 参考訳(メタデータ) (2021-09-03T03:29:25Z) - AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial
Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。
提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-04T07:17:18Z) - iNLTK: Natural Language Toolkit for Indic Languages [0.0]
iNLTKは、トレーニング済みの言語モデルと、データ拡張、テキスト類似性、センテンス埋め込み、ワード埋め込み、トークン化、テキスト生成のためのアウト・オブ・ボックスサポートからなるオープンソースのNLPライブラリである。
論文 参考訳(メタデータ) (2020-09-26T08:21:32Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。