Fugu-MT 論文翻訳(概要): WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition

論文の概要: WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition

arxiv url: http://arxiv.org/abs/2304.04026v1
Date: Sat, 8 Apr 2023 14:37:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-11 18:17:39.986037
Title: WikiGoldSK: Annotated Dataset, Baselines and Few-Shot Learning Experiments for Slovak Named Entity Recognition
Title（参考訳）: wikigoldsk: スロバキアのエンティティ認識のための注釈付きデータセット、ベースライン、およびマイショット学習実験
Authors: D\'avid \v{S}uba and Marek \v{S}uppa and Jozef Kub\'ik and Endre Hamerlik and Martin Tak\'a\v{c}
Abstract要約: WikiGoldSKは,スロバキアのNERデータセットを初めてラベル付けした人体である。我々は、最先端の多言語事前学習言語モデルを評価することで、それをベンチマークする。数ショットの実験を行い、標準データセットのトレーニングがより良い結果をもたらすことを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Named Entity Recognition (NER) is a fundamental NLP tasks with a wide range of practical applications. The performance of state-of-the-art NER methods depends on high quality manually anotated datasets which still do not exist for some languages. In this work we aim to remedy this situation in Slovak by introducing WikiGoldSK, the first sizable human labelled Slovak NER dataset. We benchmark it by evaluating state-of-the-art multilingual Pretrained Language Models and comparing it to the existing silver-standard Slovak NER dataset. We also conduct few-shot experiments and show that training on a sliver-standard dataset yields better results. To enable future work that can be based on Slovak NER, we release the dataset, code, as well as the trained models publicly under permissible licensing terms at https://github.com/NaiveNeuron/WikiGoldSK.
Abstract（参考訳）: 名前付きエンティティ認識(NER)は、広範囲の実用的な応用を持つ基本的なNLPタスクである。最先端のNERメソッドのパフォーマンスは、一部の言語ではまだ存在しない高品質な手動注釈付きデータセットに依存している。本研究は,スロバキアにおけるこの状況を改善するために,最初の人ラベル付きスロバキアNERデータセットであるWikiGoldSKを導入する。我々は、最先端の多言語事前訓練言語モデルを評価し、既存の銀標準スロバキアNERデータセットと比較することでベンチマークを行う。また,少数の実験を行い,sliver標準データセットでのトレーニングがよりよい結果をもたらすことを示す。スロバキアのNERをベースとした将来の作業を可能にするため、データセット、コード、トレーニングされたモデルをhttps://github.com/NaiveNeuron/WikiGoldSK.comで公に許可されたライセンス条件の下でリリースします。

関連論文リスト

skLEP: A Slovak General Language Understanding Benchmark [0.030113849517062304]
skLEPはスロバキアの自然言語理解(NLU)モデルを評価するために特別に設計された最初の包括的なベンチマークである。このベンチマークを作成するために、スロバキア向けに調整された新しいオリジナルデータセットをキュレートし、精密に英語のNLUリソースを翻訳した。本稿では,スロバキア固有の言語モデル,多言語言語モデル,および英語事前学習言語モデルの体系的および広範囲な評価を行う。
論文参考訳（メタデータ） (2025-06-26T17:35:04Z)
NER- RoBERTa: Fine-Tuning RoBERTa for Named Entity Recognition (NER) within low-resource languages [3.5403652483328223]
本研究は、クルド人NER(KNER)のための事前学習されたRoBERTaモデルの微調整手法を提案する。実験の結果,SentencePieceトークン化方式で調整したRoBERTaはKNERの性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-12-15T07:07:17Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文参考訳（メタデータ） (2024-06-03T15:30:36Z)
A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。ルーマニア語のNLIコーパスは公開されていない。 58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文参考訳（メタデータ） (2024-05-20T08:41:15Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Learning to Rank Context for Named Entity Recognition Using a Synthetic Dataset [6.633914491587503]
本稿では,Alpacaを用いた文脈検索学習データセットを提案する。このデータセットを用いて、NERの関連するコンテキストを見つけることができるBERTモデルに基づいて、ニューラルネットワークコンテキストレトリバーをトレーニングする。本手法は,40冊の本の第1章からなる英文データセットにおいて,NERタスクの検索ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-16T06:53:12Z)
Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文参考訳（メタデータ） (2023-01-22T18:22:55Z)
HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文参考訳（メタデータ） (2022-04-28T19:14:21Z)
An Open-Source Dataset and A Multi-Task Model for Malay Named Entity Recognition [3.511753382329252]
マレーNERデータセット(MYNER)を28,991文(384万個以上)で構築する。 NERトレーニングを明示的かつ暗黙的に改善するために、補助的なタスクである境界検出が導入されている。
論文参考訳（メタデータ） (2021-09-03T03:29:25Z)
AdvPicker: Effectively Leveraging Unlabeled Data via Adversarial Discriminator for Cross-Lingual NER [2.739898536581301]
エンコーダがラベル付きソースコードからエンティティドメインの知識を学習する逆学習フレームワークを設計する。提案手法は, このデータ選択プロセスの恩恵を強く受け, 既存の最先端手法よりも優れていることを示す。
論文参考訳（メタデータ） (2021-06-04T07:17:18Z)
iNLTK: Natural Language Toolkit for Indic Languages [0.0]
iNLTKは、トレーニング済みの言語モデルと、データ拡張、テキスト類似性、センテンス埋め込み、ワード埋め込み、トークン化、テキスト生成のためのアウト・オブ・ボックスサポートからなるオープンソースのNLPライブラリである。
論文参考訳（メタデータ） (2020-09-26T08:21:32Z)
Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。 NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文参考訳（メタデータ） (2020-06-17T03:24:38Z)
Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文参考訳（メタデータ） (2020-04-15T03:57:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。