論文の概要: KazNERD: Kazakh Named Entity Recognition Dataset
- arxiv url: http://arxiv.org/abs/2111.13419v1
- Date: Fri, 26 Nov 2021 10:56:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 21:46:55.870659
- Title: KazNERD: Kazakh Named Entity Recognition Dataset
- Title(参考訳): KazNERD: Kazakhがエンティティ認識データセットを命名
- Authors: Rustem Yeshpanov, Yerbolat Khassanov, Huseyin Atakan Varol
- Abstract要約: 本稿では,カザフスタンのエンティティ認識のためのデータセットの開発について述べる。
データセットは、カザフ語で公開されている注釈付きコーパスの必要性が明白であるとして構築された。
得られたデータセットには、112,702の文と、25のエンティティクラスのための136,333のアノテーションが含まれている。
- 参考スコア(独自算出の注目度): 5.094176584161206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the development of a dataset for Kazakh named entity recognition.
The dataset was built as there is a clear need for publicly available annotated
corpora in Kazakh, as well as annotation guidelines containing
straightforward--but rigorous--rules and examples. The dataset annotation,
based on the IOB2 scheme, was carried out on television news text by two native
Kazakh speakers under the supervision of the first author. The resulting
dataset contains 112,702 sentences and 136,333 annotations for 25 entity
classes. State-of-the-art machine learning models to automatise Kazakh named
entity recognition were also built, with the best-performing model achieving an
exact match F1-score of 97.22% on the test set. The annotated dataset,
guidelines, and codes used to train the models are freely available for
download under the CC BY 4.0 licence from https://github.com/IS2AI/KazNERD.
- Abstract(参考訳): 本稿では,カザフスタンのエンティティ認識のためのデータセットの開発について述べる。
データセットは、カザフ語で公開されている注釈付きコーパスと、単純だが厳格なルールと例を含むアノテーションガイドラインの必要性から構築された。
IOB2スキームに基づくデータセットアノテーションは、最初の著者の監督の下、2人のネイティブカザフ語話者によってテレビニューステキストで実施された。
得られたデータセットには、112,702文と、25のエンティティクラスのための136,333アノテーションが含まれている。
カザフの名前付きエンティティ認識を自動化する最先端の機械学習モデルも構築され、テストセットで正確に一致したf1-scoreは97.22%であった。
モデルをトレーニングするために使用される注釈付きデータセット、ガイドライン、コードは、https://github.com/IS2AI/KazNERDからCC BY 4.0ライセンスで無料でダウンロードできる。
関連論文リスト
- KazQAD: Kazakh Open-Domain Question Answering Dataset [2.8158674707210136]
KazQADは、カザフスタンのオープンドメイン質問応答データセットである。
これは、理解と完全なODQA設定を読むのに使うことができる。
6000件弱の独特な質問があり、短い回答が抽出されている。
論文 参考訳(メタデータ) (2024-04-06T03:40:36Z) - KazSAnDRA: Kazakh Sentiment Analysis Dataset of Reviews and Attitudes [3.4975081145096665]
KazSAnDRAは、様々な情報源から得られた180,064のレビューを幅広く収集し、1から5までの数値評価を含んでいる。
この研究は、4つの機械学習モデルの開発と評価を通じて、カザフ語感情分類の自動化も追求した。
論文 参考訳(メタデータ) (2024-03-28T11:51:11Z) - Pseudo-label Alignment for Semi-supervised Instance Segmentation [67.9616087910363]
擬似ラベルは半教師付きインスタンスセグメンテーションにおいて重要である。
既存のパイプラインでは、クラスやマスクの品質のミスマッチにより、貴重な情報を含む擬似ラベルをフィルタリングすることができる。
本稿では,疑似ラベル整合インスタンスセグメンテーション(PAIS)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-10T05:56:53Z) - Slovo: Russian Sign Language Dataset [83.93252084624997]
本稿では,クラウドソーシングプラットフォームを用いたロシア手話(RSL)ビデオデータセットであるSlovoについて述べる。
データセットには20,000のFullHDレコードが含まれており、194人の署名者が受信した1,000の独立したRSLジェスチャーに分割されている。
論文 参考訳(メタデータ) (2023-05-23T21:00:42Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Wojood: Nested Arabic Named Entity Corpus and Recognition using BERT [1.2891210250935146]
Wojoodは550K Modern Standard Arabic (MSA)と21のエンティティタイプで手動で注釈付けされた方言トークンで構成されている。
データには約75Kのエンティティが含まれ、うち22.5%がネストされている。
私たちのコーパス、アノテーションガイドライン、ソースコード、事前訓練されたモデルが公開されています。
論文 参考訳(メタデータ) (2022-05-19T16:06:49Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - KazakhTTS: An Open-Source Kazakh Text-to-Speech Synthesis Dataset [4.542831770689362]
本稿では,世界中の1300万人以上が話す低リソース言語であるKazakhの高品質なオープンソース音声合成データセットについて紹介する。
このデータセットは、2人のプロの話者が話した約91時間の録音音声から成り立っている。
これは、アカデミックと産業の両方で、カザフスタンのテキスト音声アプリケーションを促進するために開発された、初めて公開された大規模なデータセットである。
論文 参考訳(メタデータ) (2021-04-17T05:49:57Z) - Weakly-Supervised Salient Object Detection via Scribble Annotations [54.40518383782725]
本稿では,スクリブルラベルからサリエンシを学習するための弱教師付きサリエント物体検出モデルを提案する。
そこで本研究では,予測されたサリエンシマップの構造アライメントを測定するために,新しい尺度であるサリエンシ構造尺度を提案する。
我々の手法は、既存の弱教師付き/非教師付き手法よりも優れているだけでなく、いくつかの完全教師付き最先端モデルと同等である。
論文 参考訳(メタデータ) (2020-03-17T12:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。