論文の概要: CLUENER2020: Fine-grained Named Entity Recognition Dataset and Benchmark
for Chinese
- arxiv url: http://arxiv.org/abs/2001.04351v4
- Date: Mon, 20 Jan 2020 16:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 22:48:49.024528
- Title: CLUENER2020: Fine-grained Named Entity Recognition Dataset and Benchmark
for Chinese
- Title(参考訳): CLUENER2020: 名前付きエンティティ認識データセットと中国語のベンチマーク
- Authors: Liang Xu, Yu tong, Qianqian Dong, Yixuan Liao, Cong Yu, Yin Tian,
Weitang Liu, Lu Li, Caiquan Liu, Xuanwei Zhang
- Abstract要約: CLUE組織(CLUENER 2020)のNERデータセットを中国語で名前付きエンティティ認識に導入する。
CLUENER 2020には10のカテゴリがあります。人、組織、場所といった一般的なラベルとは別に、より多様なカテゴリが含まれています。
これは現在の中国のNERデータセットよりも難しく、現実世界のアプリケーションをよりよく反映できる。
- 参考スコア(独自算出の注目度): 18.673425507885938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce the NER dataset from CLUE organization
(CLUENER2020), a well-defined fine-grained dataset for named entity recognition
in Chinese. CLUENER2020 contains 10 categories. Apart from common labels like
person, organization, and location, it contains more diverse categories. It is
more challenging than current other Chinese NER datasets and could better
reflect real-world applications. For comparison, we implement several
state-of-the-art baselines as sequence labeling tasks and report human
performance, as well as its analysis. To facilitate future work on fine-grained
NER for Chinese, we release our dataset, baselines, and leader-board.
- Abstract(参考訳): 本稿では、中国語で名前付きエンティティ認識のための精細なデータセットであるCLUE(CLUENER2020)のNERデータセットを紹介する。
CLUENER2020には10のカテゴリがある。
人、組織、場所などの一般的なラベルとは別に、より多様なカテゴリを含んでいる。
現在の中国のNERデータセットよりも難しく、現実世界のアプリケーションをよりよく反映できる。
比較のために、シーケンスラベリングタスクとして最先端のベースラインをいくつか実装し、人間のパフォーマンスを報告し、分析する。
中国向けのきめ細かいNERの開発を促進するため、私たちはデータセット、ベースライン、リーダーボードをリリースしています。
関連論文リスト
- Beyond Boundaries: Learning a Universal Entity Taxonomy across Datasets and Languages for Open Named Entity Recognition [40.23783832224238]
我々は,Open NERの凝集性および効率的なデータセットであるB2NERDを提案する。
データセット間の一貫性のないエンティティ定義を検出し,識別可能なラベル名を用いて識別し,400以上のエンティティタイプを普遍的に分類する。
我々のB2NERモデルは、B2NERDでトレーニングされ、GPT-4を6.8-12.0 F1ポイント上回っており、15のデータセットと6つの言語にわたる3つのドメイン外のベンチマークで、以前のメソッドを上回っています。
論文 参考訳(メタデータ) (2024-06-17T03:57:35Z) - Learning representations of learning representations [5.6322311453490475]
我々は、2017年から2024年までの24万件のICLRサブミッションの抽象化からなるICLRデータセットを提示する。
単語のback-of-words表現は、$k$NNの分類精度で、ほとんどの専用文変換器モデルより優れていることがわかった。
ICLRデータセットを使用して、機械学習の分野が過去7年間でどのように変化したかも調べています。
論文 参考訳(メタデータ) (2024-04-12T11:30:16Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - AsNER -- Annotated Dataset and Baseline for Assamese Named Entity
recognition [7.252817150901275]
提案されたNERデータセットは、ディープニューラルネットワークベースのアサマセ言語処理のための重要なリソースである可能性が高い。
我々は、NERモデルをトレーニングしてデータセットをベンチマークし、教師付きエンティティ認識のための最先端アーキテクチャを用いて評価する。
全てのベースラインの中で最も高いF1スコアは、単語埋め込み法として MuRIL を使用する場合、80.69%の精度を達成する。
論文 参考訳(メタデータ) (2022-07-07T16:45:55Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Cascaded Models for Better Fine-Grained Named Entity Recognition [10.03287972980716]
細粒度NERをラベル付けするためのケースドアプローチを新たにリリースした細粒度NERデータセットに適用する。
完全きめ細かな型で構築された直感的なモデルと比較して,20F1絶対値で性能を向上できることを示す。
論文 参考訳(メタデータ) (2020-09-15T18:41:29Z) - A Sentence Cloze Dataset for Chinese Machine Reading Comprehension [64.07894249743767]
我々はSentence Cloze-style Machine Reading (SC-MRC)と呼ばれる新しいタスクを提案する。
提案課題は,複数の空白を持つ文に適切な候補文を埋めることである。
私たちは、SC-MRCタスクの難しさを評価するためにCMRC 2019という中国のデータセットを構築しました。
論文 参考訳(メタデータ) (2020-04-07T04:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。