Fugu-MT 論文翻訳(概要): A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to Kurdish-BLARK Named Entities

論文の概要: A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to Kurdish-BLARK Named Entities

arxiv url: http://arxiv.org/abs/2301.04962v1
Date: Thu, 12 Jan 2023 12:13:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-13 14:20:30.931410
Title: A Dataset of Kurdish (Sorani) Named Entities -- An Amendment to Kurdish-BLARK Named Entities
Title（参考訳）: クルド人(ソラニ)のエンティティのデータセット - クルド人-ブラク人の名前のエンティティの修正-
Authors: Sazan Salar and Hossein Hassani
Abstract要約: クルド語(ソラニ)におけるNEのいくつかのカテゴリをカバーするデータセットを提示する。このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。
参考スコア（独自算出の注目度）: 0.76146285961466
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Named Entity Recognition (NER) is one of the essential applications of Natural Language Processing (NLP). It is also an instrument that plays a significant role in many other NLP applications, such as Machine Translation (MT), Information Retrieval (IR), and Part of Speech Tagging (POST). Kurdish is an under-resourced language from the NLP perspective. Particularly, in all the categories, the lack of NER resources hinders other aspects of Kurdish processing. In this work, we present a data set that covers several categories of NEs in Kurdish (Sorani). The dataset is a significant amendment to a previously developed dataset in the Kurdish BLARK (Basic Language Resource Kit). It covers 11 categories and 33261 entries in total. The dataset is publicly available for non-commercial use under CC BY-NC-SA 4.0 license at https://kurdishblark.github.io/.
Abstract（参考訳）: 名前付きエンティティ認識(NER)は自然言語処理(NLP)の重要な応用の1つである。また、機械翻訳(MT)、情報検索(IR)、音声タグリング(POST)など、他の多くのNLPアプリケーションにおいて重要な役割を果たしている。 Kurdishは、NLPの観点からは、未公開言語である。特に、すべてのカテゴリにおいて、NERリソースの欠如はクルド人の処理の他の側面を妨げる。本研究では,クルド語 (sorani) における nes のいくつかのカテゴリをカバーするデータセットを提案する。このデータセットは、クルド語BLARK(Basic Language Resource Kit)で以前に開発されたデータセットに対する重要な修正である。 11のカテゴリと33261のエントリをカバーしている。データセットは、https://kurdishblark.github.io/でcc by-nc-sa 4.0ライセンスの下で非商用利用が公開されている。

関連論文リスト

KurdSTS: The Kurdish Semantic Textual Similarity [0.979204203262436]
形式と非公式のレジスタにまたがる1万の文対。我々は、Sentence-BERT、Multilingual BERT、その他の強力なベースラインをベンチマークし、クルド人の形態、正書法の変化、コードミキシングに起因する課題を強調しながら、競争結果を得る。データセットとベースラインは再現可能な評価スイートを確立し、クルド人のセマンティクスと低リソースNLPに関する将来の研究の出発点となる。
論文参考訳（メタデータ） (2025-09-26T14:55:55Z)
NER- RoBERTa: Fine-Tuning RoBERTa for Named Entity Recognition (NER) within low-resource languages [3.5403652483328223]
本研究は、クルド人NER(KNER)のための事前学習されたRoBERTaモデルの微調整手法を提案する。実験の結果,SentencePieceトークン化方式で調整したRoBERTaはKNERの性能を大幅に向上することがわかった。
論文参考訳（メタデータ） (2024-12-15T07:07:17Z)
Shifting from endangerment to rebirth in the Artificial Intelligence Age: An Ensemble Machine Learning Approach for Hawrami Text Classification [1.174020933567308]
ハフラミ語(Hawrami)はクルド語の方言で、絶滅危惧言語に分類される。本稿では2つの母語話者による15のカテゴリにラベル付けされた6,854項目のデータセットを用いて,さまざまなテキスト分類モデルを提案する。
論文参考訳（メタデータ） (2024-09-25T12:52:21Z)
Can a Multichoice Dataset be Repurposed for Extractive Question Answering? [52.28197971066953]
我々は,Multiple-choice Question answering (MCQA)のために設計されたBandarkar et al.(Bandarkar et al., 2023)を再利用した。本稿では,英語と現代標準アラビア語(MSA)のためのガイドラインと並列EQAデータセットを提案する。私たちの目標は、ベレベレにおける120以上の言語変異に対して、他者が私たちのアプローチを適応できるようにすることです。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
SemRel2024: A Collection of Semantic Textual Relatedness Datasets for 13 Languages [44.017657230247934]
textitSemRelは13言語にまたがるネイティブスピーカーによって注釈付けされた新しいセマンティック関連データセットである。これらの言語は5つの異なる言語族の出身であり、主にアフリカとアジアで話されている。 SemRelデータセットの各インスタンスは、2つの文間の意味的テキスト関連性の度合いを表すスコアに関連付けられた文対である。
論文参考訳（メタデータ） (2024-02-13T18:04:53Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
NusaWrites: Constructing High-Quality Corpora for Underrepresented and Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文参考訳（メタデータ） (2023-09-19T14:42:33Z)
NusaCrowd: Open Source Initiative for Indonesian NLP Resources [104.5381571820792]
NusaCrowdは、インドネシア語の既存のリソースを収集し、統一する共同イニシアチブである。我々の研究は、広く話されているにもかかわらず表現されていない言語に対する自然言語処理(NLP)の研究を進めようとしている。
論文参考訳（メタデータ） (2022-12-19T17:28:22Z)
NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文参考訳（メタデータ） (2022-05-31T17:03:50Z)
Mukayese: Turkish NLP Strikes Back [0.19116784879310023]
我々は、トルコ語などの言語が、NLPアプリケーションにおける最先端技術に置き去りにされていることを実証する。トルコ語のNLPベンチマークのセットであるMukayeseを紹介します。言語モデリング,文セグメンテーション,スペルチェックの4つの新しいベンチマークデータセットをトルコ語で提示する。
論文参考訳（メタデータ） (2022-03-02T16:18:44Z)
Part of Speech Tagging (POST) of a Low-resource Language using another Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged Persian (Farsi) Corpus) [0.76146285961466]
音声タグ付け(POST)の一部はタグ付きコーパスの開発に不可欠である。クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。我々は、ペルシャ語(Farsi)のタグ付きコーパス(Bijankhan corpus)をクルド語に近い言語として使用し、POSタグ付きレキシコンを開発する。
論文参考訳（メタデータ） (2022-01-30T11:49:43Z)
Masader: Metadata Sourcing for Arabic Text and Speech Data Resources [3.345437353879255]
textitMasaderはアラビア語のNLPデータセットの公開カタログとしては最大である。我々は、他の言語にも拡張可能なメタデータアノテーション戦略を開発した。
論文参考訳（メタデータ） (2021-10-13T14:25:21Z)
Using Punkt for Sentence Segmentation in non-Latin Scripts: Experiments on Kurdish (Sorani) Texts [0.76146285961466]
Punktは教師なしの機械学習手法である。我々はパンクトを使って、ペルシア・アラビア文字で書かれたソラニ方言のクルド語コーパスを区分した。実験では、F1スコア91.10%、エラーレート16.32%を達成しました。
論文参考訳（メタデータ） (2020-04-09T06:44:08Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。