論文の概要: Developing a Named Entity Recognition Dataset for Tagalog
- arxiv url: http://arxiv.org/abs/2311.07161v1
- Date: Mon, 13 Nov 2023 08:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 15:16:14.204872
- Title: Developing a Named Entity Recognition Dataset for Tagalog
- Title(参考訳): Tagalogのための名前付きエンティティ認識データセットの開発
- Authors: Lester James V. Miranda
- Abstract要約: このデータセットには、3つのエンティティタイプにわたる7.8kドキュメントが含まれている。
コーエンの$kappa$で測定されたアノテーション間の合意は0.81である。
今後Tagalog NLPの開発に刺激を与えるために、データと処理のコードを公開しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the development of a Named Entity Recognition (NER) dataset for
Tagalog. This corpus helps fill the resource gap present in Philippine
languages today, where NER resources are scarce. The texts were obtained from a
pretraining corpora containing news reports, and were labeled by native
speakers in an iterative fashion. The resulting dataset contains ~7.8k
documents across three entity types: Person, Organization, and Location. The
inter-annotator agreement, as measured by Cohen's $\kappa$, is 0.81. We also
conducted extensive empirical evaluation of state-of-the-art methods across
supervised and transfer learning settings. Finally, we released the data and
processing code publicly to inspire future work on Tagalog NLP.
- Abstract(参考訳): 本稿では,tagalog用の名前付きエンティティ認識(ner)データセットの開発について述べる。
このコーパスは、現在フィリピンの言語に存在している資源ギャップを埋めるのに役立ち、NERの資源は乏しい。
テキストは、ニュースレポートを含む事前学習コーパスから得られ、母語話者によって反復的にラベル付けされた。
得られたデータセットには、Person、Organization、Locationの3つのエンティティタイプにわたる約7.8kドキュメントが含まれている。
cohenの$\kappa$で測定される注釈間合意は 0.81 である。
また,教師付きおよび伝達学習環境における最先端手法の広範な実証評価を行った。
最後に、Tagalog NLPに関する今後の研究を促すために、データと処理コードを公開しました。
関連論文リスト
- ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition [0.8025340896297104]
データセットは約10,443文、1リージョンあたり3,481文である。
データは2つの公開データセットから収集され、様々なオンライン新聞や記事からウェブスクレイピングによって収集された。
データセットは各リージョンごとに別々のサブセットに構成され、どちらもCSVフォーマットで利用できる。
論文 参考訳(メタデータ) (2025-02-16T16:59:10Z) - WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。
我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文 参考訳(メタデータ) (2025-01-24T14:06:29Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Naamapadam: A Large-Scale Named Entity Annotated Data for Indic
Languages [15.214673043019399]
このデータセットには、3つの標準エンティティカテゴリから少なくとも100万のエンティティがアノテートされた400k以上の文が含まれている。
トレーニングデータセットは、Samanantar並列コーパスから自動的に作成される。
IndicNERは、Naamapadamトレーニングセットを微調整した多言語IndicBERTモデルである。
論文 参考訳(メタデータ) (2022-12-20T11:15:24Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。
データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。
我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文 参考訳(メタデータ) (2022-04-28T19:14:21Z) - Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。
我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。
本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文 参考訳(メタデータ) (2022-03-16T23:21:05Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Development of a Dataset and a Deep Learning Baseline Named Entity
Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi [0.983719084224035]
Bhojpuri、Maithili、Magahiは低資源言語であり、通常はPurvanchal言語として知られている。
本稿では、これらの言語からヒンディー語への翻訳のために開発された機械翻訳システムのためのNERベンチマークデータセットの開発に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-14T14:07:50Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。