論文の概要: Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis
- arxiv url: http://arxiv.org/abs/2511.22315v1
- Date: Thu, 27 Nov 2025 10:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.519995
- Title: Named Entity Recognition for the Kurdish Sorani Language: Dataset Creation and Comparative Analysis
- Title(参考訳): クルド語ソラニ語における名前付きエンティティ認識:データセット作成と比較分析
- Authors: Bakhtawar Abdalla, Rebwar Mala Nabi, Hassan Eshkiki, Fabio Caraffini,
- Abstract要約: この研究は、自然言語処理技術の傾きとグローバルな適用性のバランスに寄与する。
このデータセットは、低リソースで低表現の言語であるKurdish Soraniのための最初の 'name entity recognition' データセットを提案する。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work contributes towards balancing the inclusivity and global applicability of natural language processing techniques by proposing the first 'name entity recognition' dataset for Kurdish Sorani, a low-resource and under-represented language, that consists of 64,563 annotated tokens. It also provides a tool for facilitating this task in this and many other languages and performs a thorough comparative analysis, including classic machine learning models and neural systems. The results obtained challenge established assumptions about the advantage of neural approaches within the context of NLP. Conventional methods, in particular CRF, obtain F1-scores of 0.825, outperforming the results of BiLSTM-based models (0.706) significantly. These findings indicate that simpler and more computationally efficient classical frameworks can outperform neural architectures in low-resource settings.
- Abstract(参考訳): この研究は、64,563個の注釈付きトークンからなる低リソースおよび低表現の言語であるKurdish Soraniに対して、最初の「名前エンティティ認識」データセットを提案することで、自然言語処理技術の傾きとグローバルな適用性のバランスに寄与する。
また、このタスクを他の多くの言語で促進するためのツールも提供し、古典的な機械学習モデルやニューラルネットワークを含む徹底した比較分析を実行する。
その結果、NLPの文脈におけるニューラルアプローチの利点に関する、確立された仮定が得られた。
従来の手法、特にCRFは0.825のF1スコアを取得し、BiLSTMベースのモデル (0.706) よりも大幅に優れていた。
これらの結果から,よりシンプルで計算効率のよい古典的フレームワークは,低リソース環境下でのニューラルアーキテクチャよりも優れていることが示唆された。
関連論文リスト
- HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language [1.3465808629549525]
本稿では,Hausaにおける5000のYouTubeコメントとコードスイッチによる英語を含む新しいベンチマークデータセットを提案する。
このデータセットを用いて、古典モデルと微調整変換器モデルの比較分析を行う。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-17T22:57:21Z) - NER- RoBERTa: Fine-Tuning RoBERTa for Named Entity Recognition (NER) within low-resource languages [3.5403652483328223]
本研究は、クルド人NER(KNER)のための事前学習されたRoBERTaモデルの微調整手法を提案する。
実験の結果,SentencePieceトークン化方式で調整したRoBERTaはKNERの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-12-15T07:07:17Z) - Transformer-Based Contextualized Language Models Joint with Neural Networks for Natural Language Inference in Vietnamese [1.7457686843484872]
文脈型言語モデル(CLM)とニューラルネットワークの様々な組み合わせを用いて実験を行う。
CLMとニューラルネットワークのジョイントアプローチはシンプルだが,高品質な性能を実現することができる。
論文 参考訳(メタデータ) (2024-11-20T15:46:48Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。