Fugu-MT 論文翻訳(概要): Developing a Named Entity Recognition Dataset for Tagalog

論文の概要: Developing a Named Entity Recognition Dataset for Tagalog

arxiv url: http://arxiv.org/abs/2311.07161v1
Date: Mon, 13 Nov 2023 08:56:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 15:16:14.204872
Title: Developing a Named Entity Recognition Dataset for Tagalog
Title（参考訳）: Tagalogのための名前付きエンティティ認識データセットの開発
Authors: Lester James V. Miranda
Abstract要約: このデータセットには、3つのエンティティタイプにわたる7.8kドキュメントが含まれている。コーエンの$kappa$で測定されたアノテーション間の合意は0.81である。今後Tagalog NLPの開発に刺激を与えるために、データと処理のコードを公開しました。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present the development of a Named Entity Recognition (NER) dataset for Tagalog. This corpus helps fill the resource gap present in Philippine languages today, where NER resources are scarce. The texts were obtained from a pretraining corpora containing news reports, and were labeled by native speakers in an iterative fashion. The resulting dataset contains ~7.8k documents across three entity types: Person, Organization, and Location. The inter-annotator agreement, as measured by Cohen's $\kappa$, is 0.81. We also conducted extensive empirical evaluation of state-of-the-art methods across supervised and transfer learning settings. Finally, we released the data and processing code publicly to inspire future work on Tagalog NLP.
Abstract（参考訳）: 本稿では,tagalog用の名前付きエンティティ認識(ner)データセットの開発について述べる。このコーパスは、現在フィリピンの言語に存在している資源ギャップを埋めるのに役立ち、NERの資源は乏しい。テキストは、ニュースレポートを含む事前学習コーパスから得られ、母語話者によって反復的にラベル付けされた。得られたデータセットには、Person、Organization、Locationの3つのエンティティタイプにわたる約7.8kドキュメントが含まれている。 cohenの$\kappa$で測定される注釈間合意は 0.81 である。また,教師付きおよび伝達学習環境における最先端手法の広範な実証評価を行った。最後に、Tagalog NLPに関する今後の研究を促すために、データと処理コードを公開しました。

関連論文リスト

The UD-NewsCrawl Treebank: Reflections and Challenges from a Large-scale Tagalog Syntactic Annotation Project [0.0]
本稿では,これまでで最大規模のタガログツリーバンクであるUD-NewsCrawlについて,Universal Dependenciesフレームワークに従って手作業で15.6kのツリーを作成した。データ収集、前処理、手動アノテーション、品質保証手順など、ツリーバンクの開発プロセスについて詳述する。
論文参考訳（メタデータ） (2025-05-26T18:25:10Z)
ANCHOLIK-NER: A Benchmark Dataset for Bangla Regional Named Entity Recognition [0.8025340896297104]
データセットは約17,405文、1リージョンあたり3,481文である。データは2つの公開データセットから収集され、様々なオンライン新聞や記事からウェブスクレイピングによって収集された。バングラ方言のNERシステムを強化し、地域言語理解を改善し、機械翻訳、情報検索、会話AIの応用をサポートするために利用することができる。
論文参考訳（メタデータ） (2025-02-16T16:59:10Z)
WanJuanSiLu: A High-Quality Open-Source Webtext Dataset for Low-Resource Languages [62.1053122134059]
本稿では、低リソース言語のための高品質なトレーニングコーパスを提供するために設計されたオープンソースのデータセットWanJuanSiLuを紹介する。我々は低リソース言語に適した体系的なデータ処理フレームワークを開発した。
論文参考訳（メタデータ） (2025-01-24T14:06:29Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
Naamapadam: A Large-Scale Named Entity Annotated Data for Indic Languages [15.214673043019399]
このデータセットには、3つの標準エンティティカテゴリから少なくとも100万のエンティティがアノテートされた400k以上の文が含まれている。トレーニングデータセットは、Samanantar並列コーパスから自動的に作成される。 IndicNERは、Naamapadamトレーニングセットを微調整した多言語IndicBERTモデルである。
論文参考訳（メタデータ） (2022-12-20T11:15:24Z)
NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文参考訳（メタデータ） (2022-12-19T17:28:22Z)
Benchmarking zero-shot and few-shot approaches for tokenization, tagging, and dependency parsing of Tagalog text [0.0]
注釈付きタガログデータがない場合にタスク固有モデル作成に補助的なデータソースを使用することを検討する。これらのゼロショットと少数ショットのアプローチは、ドメイン内およびドメイン外の両方のタガログテキストの文法解析を大幅に改善することを示す。
論文参考訳（メタデータ） (2022-08-03T02:20:10Z)
Part-of-Speech Tagging of Odia Language Using statistical and Deep Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文参考訳（メタデータ） (2022-07-07T12:15:23Z)
HiNER: A Large Hindi Named Entity Recognition Dataset [29.300418937509317]
本稿では,11個のタグを付加した109,146文と2,220,856トークンを含む標準Hindi NERデータセットをリリースする。データセット内のタグセットの統計は、特に人、場所、組織といった著名なクラスにおいて、タグ単位の分布が健全であることを示している。我々のデータセットは、すべてのタグで重み付けされたF1スコア88.78、タグセットが崩壊したときに92.22を達成するのに役立ちます。
論文参考訳（メタデータ） (2022-04-28T19:14:21Z)
Label Semantics for Few Shot Named Entity Recognition [68.01364012546402]
名前付きエンティティ認識におけるショットラーニングの問題について検討する。我々は,ラベル名中の意味情報を,モデルに付加的な信号を与え,よりリッチな事前情報を与える手段として活用する。本モデルは,第1エンコーダによって計算された名前付きエンティティの表現と,第2エンコーダによって計算されたラベル表現とを一致させることを学習する。
論文参考訳（メタデータ） (2022-03-16T23:21:05Z)
Reinforced Iterative Knowledge Distillation for Cross-Lingual Named Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文参考訳（メタデータ） (2021-06-01T05:46:22Z)
Development of a Dataset and a Deep Learning Baseline Named Entity Recognizer for Three Low Resource Languages: Bhojpuri, Maithili and Magahi [0.983719084224035]
Bhojpuri、Maithili、Magahiは低資源言語であり、通常はPurvanchal言語として知られている。本稿では、これらの言語からヒンディー語への翻訳のために開発された機械翻訳システムのためのNERベンチマークデータセットの開発に焦点をあてる。
論文参考訳（メタデータ） (2020-09-14T14:07:50Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。