論文の概要: A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks
- arxiv url: http://arxiv.org/abs/2504.19645v1
- Date: Mon, 28 Apr 2025 10:02:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.394555
- Title: A Comprehensive Part-of-Speech Tagging to Standardize Central-Kurdish Language: A Research Guide for Kurdish Natural Language Processing Tasks
- Title(参考訳): 中央クルド語標準化のための包括的一括タグ:クルド語自然言語処理タスクの研究ガイド
- Authors: Shadan Shukr Sabr, Nazira Sabr Mustafa, Talar Sabah Omar, Salah Hwayyiz Rasool, Nawzad Anwer Omer, Darya Sabir Hamad, Hemin Abdulhameed Shams, Omer Mahmood Kareem, Rozhan Noori Abdullah, Khabat Atar Abdullah, Mahabad Azad Mohammad, Haneen Al-Raghefy, Safar M. Asaad, Sara Jamal Mohammed, Twana Saeed Ali, Fazil Shawrow, Halgurd S. Maghdid,
- Abstract要約: 中央クルド語(CKL)のような低リソース言語は、開発を支援するために必要なリソースが不足しているため、ほとんど検討されていない。
本研究は、クルド人のNLPタスクのパフォーマンスを向上させるために、CKLのための正確で包括的なPOSタグセットを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: - The field of natural language processing (NLP) has dramatically expanded within the last decade. Many human-being applications are conducted daily via NLP tasks, starting from machine translation, speech recognition, text generation and recommendations, Part-of-Speech tagging (POS), and Named-Entity Recognition (NER). However, low-resourced languages, such as the Central-Kurdish language (CKL), mainly remain unexamined due to shortage of necessary resources to support their development. The POS tagging task is the base of other NLP tasks; for example, the POS tag set has been used to standardized languages to provide the relationship between words among the sentences, followed by machine translation and text recommendation. Specifically, for the CKL, most of the utilized or provided POS tagsets are neither standardized nor comprehensive. To this end, this study presented an accurate and comprehensive POS tagset for the CKL to provide better performance of the Kurdish NLP tasks. The article also collected most of the POS tags from different studies as well as from Kurdish linguistic experts to standardized part-of-speech tags. The proposed POS tagset is designed to annotate a large CKL corpus and support Kurdish NLP tasks. The initial investigations of this study via comparison with the Universal Dependencies framework for standard languages, show that the proposed POS tagset can streamline or correct sentences more accurately for Kurdish NLP tasks.
- Abstract(参考訳): -過去10年間に自然言語処理(NLP)の分野は劇的に拡大してきた。
機械翻訳、音声認識、テキスト生成とレコメンデーション、POS(Part-of-Speech tagging)、NER(Named-Entity Recognition)など、NLPタスクを通じて毎日行われる。
しかし、中央クルド語(CKL)のような低リソース言語は、開発を支援するために必要なリソースが不足しているため、ほとんど検討されていない。
POSタグ付けタスクは、他のNLPタスクのベースであり、例えば、POSタグセットは、文間の単語間の関係を提供するために標準化された言語に使われ、次に機械翻訳とテキストレコメンデーションが続く。
特にCKLでは、利用または提供されたPOSタグセットのほとんどは標準化されておらず、包括的でもない。
そこで本研究では,クルド人のNLPタスクの性能向上のために,CKLのPOSタグセットを正確かつ包括的に提示した。
記事はまた、異なる研究から、クルド語の専門家から標準化された音声タグまで、POSタグのほとんどを収集した。
提案したPOSタグセットは、大規模なCKLコーパスを注釈付けし、クルド人のNLPタスクをサポートするように設計されている。
本研究の最初の研究は、標準言語におけるUniversal Dependenciesフレームワークとの比較を通じて、提案したPOSタグセットがクルド語NLPタスクに対してより正確に文を合理化または修正できることを示した。
関連論文リスト
- Zero-Shot Keyphrase Generation: Investigating Specialized Instructions and Multi-Sample Aggregation on Large Language Models [52.829293635314194]
キーフレーズ生成(英: Keyphrase generation)とは、ある文書のキーフレーズを自動的に生成する、長期にわたるNLPタスクである。
本稿では,オープンソースの命令調整型LDM (Phi-3, Llama-3) のゼロショット機能と,このタスクのためのクローズドソース GPT-4o に着目した。
論文 参考訳(メタデータ) (2025-03-01T19:38:57Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - MUG: A General Meeting Understanding and Generation Benchmark [60.09540662936726]
我々はAliMeeting4MUG Corpusを構築した。
本稿では,このコーパスの詳細な紹介,SLPタスクと評価方法,ベースラインシステムとその性能について述べる。
論文 参考訳(メタデータ) (2023-03-24T11:52:25Z) - Part-of-Speech Tagging of Odia Language Using statistical and Deep
Learning-Based Approaches [0.0]
本研究は,条件付きランダムフィールド (CRF) と深層学習に基づくアプローチ (CNN と Bi-LSTM) を用いて,Odia の音声タグ作成を支援することを目的とする。
文字列の特徴を持つBi-LSTMモデルと事前学習した単語ベクトルは,最先端の結果を得た。
論文 参考訳(メタデータ) (2022-07-07T12:15:23Z) - Part of Speech Tagging (POST) of a Low-resource Language using another
Language (Developing a POS-Tagged Lexicon for Kurdish (Sorani) using a Tagged
Persian (Farsi) Corpus) [0.76146285961466]
音声タグ付け(POST)の一部はタグ付きコーパスの開発に不可欠である。
クルド語は現在、適切なサイズのタグ付きコーパスが公開されていない。
我々は、ペルシャ語(Farsi)のタグ付きコーパス(Bijankhan corpus)をクルド語に近い言語として使用し、POSタグ付きレキシコンを開発する。
論文 参考訳(メタデータ) (2022-01-30T11:49:43Z) - Reliable Part-of-Speech Tagging of Historical Corpora through Set-Valued Prediction [21.67895423776014]
設定値予測の枠組みにおけるPOSタグ付けについて検討する。
最先端のPOSタグをセット値の予測に拡張すると、より正確で堅牢なタグ付けが得られます。
論文 参考訳(メタデータ) (2020-08-04T07:21:36Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - Weakly Supervised POS Taggers Perform Poorly on Truly Low-Resource
Languages [20.6788155478186]
我々は15の真の低リソース言語からなるタイプ的多種多様な集合に対して、最先端のPOSタグを訓練し評価する。
我々の結果は、本当に低リソース言語に対するPOSタグ付けに対する新しい異なるアプローチの必要性を強調します。
論文 参考訳(メタデータ) (2020-04-28T05:14:08Z) - Machine Learning Approaches for Amharic Parts-of-speech Tagging [0.0]
アムハラ語における現在のPOSタグのパフォーマンスは、英語や他のヨーロッパの言語で利用可能な現代のPOSタグほど良くない。
この作業の目的は、91%を超えなかったAmharic言語のPOSタグ性能を改善することである。
論文 参考訳(メタデータ) (2020-01-10T06:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。