論文の概要: A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to
Kurdish-BLARK Named Entities
- arxiv url: http://arxiv.org/abs/2301.04962v1
- Date: Thu, 12 Jan 2023 12:13:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 14:20:30.931410
- Title: A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to
Kurdish-BLARK Named Entities
- Title(参考訳): クルド人(ソラニ)のエンティティのデータセット - クルド人-ブラク人の名前のエンティティの修正-
- Authors: Sazan Salar and Hossein Hassani
- Abstract要約: クルド語(ソラニ)におけるNEのいくつかのカテゴリをカバーするデータセットを提示する。
このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Named Entity Recognition (NER) is one of the essential applications of
Natural Language Processing (NLP). It is also an instrument that plays a
significant role in many other NLP applications, such as Machine Translation
(MT), Information Retrieval (IR), and Part of Speech Tagging (POST). Kurdish is
an under-resourced language from the NLP perspective. Particularly, in all the
categories, the lack of NER resources hinders other aspects of Kurdish
processing. In this work, we present a data set that covers several categories
of NEs in Kurdish (Sorani). The dataset is a significant amendment to a
previously developed dataset in the Kurdish BLARK (Basic Language Resource
Kit). It covers 11 categories and 33261 entries in total. The dataset is
publicly available for non-commercial use under CC BY-NC-SA 4.0 license at
https://kurdishblark.github.io/.
- Abstract(参考訳): 名前付きエンティティ認識(NER)は自然言語処理(NLP)の重要な応用の1つである。
また、機械翻訳(MT)、情報検索(IR)、音声タグリング(POST)など、他の多くのNLPアプリケーションにおいて重要な役割を果たしている。
Kurdishは、NLPの観点からは、未公開言語である。
特に、すべてのカテゴリにおいて、NERリソースの欠如はクルド人の処理の他の側面を妨げる。
本研究では,クルド語 (sorani) における nes のいくつかのカテゴリをカバーするデータセットを提案する。
このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。
11のカテゴリと33261のエントリをカバーしている。
データセットは、https://kurdishblark.github.io/でcc by-nc-sa 4.0ライセンスの下で非商用利用が公開されている。
関連論文リスト
- NER- RoBERTa: Fine-Tuning RoBERTa for Named Entity Recognition (NER) within low-resource languages [3.5403652483328223]
本研究は、クルド人NER(KNER)のための事前学習されたRoBERTaモデルの微調整手法を提案する。
実験の結果,SentencePieceトークン化方式で調整したRoBERTaはKNERの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-12-15T07:07:17Z) - SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。
これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。
SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文 参考訳(メタデータ) (2024-02-13T18:04:53Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。
我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文 参考訳(メタデータ) (2022-12-19T17:28:22Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。
トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。
言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文 参考訳(メタデータ) (2022-03-02T16:18:44Z) - Part of Speech Tagging (POST) of a Low-resource Language using another
Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged
Persian (Farsi) Corpus) [0.76146285961466]
音声タグ付け(POST)の一部はタグ付きコーパスの開発に不可欠である。
クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。
我々は、ペルシャ語(Farsi)のタグ付きコーパス(Bijankhan corpus)をクルド語に近い言語として使用し、POSタグ付きレキシコンを開発する。
論文 参考訳(メタデータ) (2022-01-30T11:49:43Z) - Masader: Metadata Sourcing for Arabic Text and Speech Data Resources [3.345437353879255]
textitMasaderはアラビア語のNLPデータセットの公開カタログとしては最大である。
我々は、他の言語にも拡張可能なメタデータアノテーション戦略を開発した。
論文 参考訳(メタデータ) (2021-10-13T14:25:21Z) - Using Punkt for Sentence Segmentation in non-Latin Scripts: Experiments
on Kurdish (Sorani) Texts [0.76146285961466]
Punktは教師なしの機械学習手法である。
我々はパンクトを使って、ペルシア・アラビア文字で書かれたソラニ方言のクルド語コーパスを区分した。
実験では、F1スコア91.10%、エラーレート16.32%を達成しました。
論文 参考訳(メタデータ) (2020-04-09T06:44:08Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。