論文の概要: Human-Annotated NER Dataset for the Kyrgyz Language
- arxiv url: http://arxiv.org/abs/2509.19109v1
- Date: Tue, 23 Sep 2025 14:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.912581
- Title: Human-Annotated NER Dataset for the Kyrgyz Language
- Title(参考訳): キルギス語のための人間アノテーション付きNERデータセット
- Authors: Timur Turatali, Anton Alekseev, Gulira Jumalieva, Gulnara Kabaeva, Sergey Nikolenko,
- Abstract要約: KyrgyzNERは、Kyrgyz言語用の最初の手動アノテーション付きエンティティ認識データセットである。
データセットには10,900の文と39,075のエンティティがあり、27の命名されたエンティティクラスにまたがっている。
本稿では、アノテーション方式を示し、アノテーションプロセスで直面する課題について論じ、記述統計を提示する。
- 参考スコア(独自算出の注目度): 0.5220697980320981
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce KyrgyzNER, the first manually annotated named entity recognition dataset for the Kyrgyz language. Comprising 1,499 news articles from the 24.KG news portal, the dataset contains 10,900 sentences and 39,075 entity mentions across 27 named entity classes. We show our annotation scheme, discuss the challenges encountered in the annotation process, and present the descriptive statistics. We also evaluate several named entity recognition models, including traditional sequence labeling approaches based on conditional random fields and state-of-the-art multilingual transformer-based models fine-tuned on our dataset. While all models show difficulties with rare entity categories, models such as the multilingual RoBERTa variant pretrained on a large corpus across many languages achieve a promising balance between precision and recall. These findings emphasize both the challenges and opportunities of using multilingual pretrained models for processing languages with limited resources. Although the multilingual RoBERTa model performed best, other multilingual models yielded comparable results. This suggests that future work exploring more granular annotation schemes may offer deeper insights for Kyrgyz language processing pipelines evaluation.
- Abstract(参考訳): KyrgyzNERは、Kyrgyz言語用の最初の手動アノテーション付きエンティティ認識データセットである。
24.KGのニュースポータルから1,499のニュース記事で構成され、データセットには10,900の文と39,075のエンティティが27の名前を冠したエンティティクラスに言及されている。
本稿では、アノテーション方式を示し、アノテーションプロセスで直面する課題について論じ、記述統計を提示する。
我々はまた、条件付きランダムフィールドに基づく従来のシーケンスラベリングアプローチや、我々のデータセットに微調整された最先端多言語トランスフォーマーモデルなど、いくつかの名前付きエンティティ認識モデルも評価した。
全てのモデルは希少なエンティティカテゴリでは困難を示すが、多くの言語にわたる大きなコーパスで事前訓練された多言語RoBERTa変種のようなモデルは、精度とリコールの間の有望なバランスを達成している。
これらの知見は、限られたリソースを持つ言語を処理するために、多言語事前学習モデルを使用することの課題と機会の両方を強調している。
マルチリンガルのRoBERTaモデルが最もよく機能したが、他のマルチリンガルモデルは同等の結果を得た。
このことは、より粒度の細かいアノテーションスキームを探求する今後の研究が、キルギス語処理パイプラインの評価に深い洞察を与える可能性があることを示唆している。
関連論文リスト
- Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Morphosyntactic probing of multilingual BERT models [41.83131308999425]
言語モデルにおける形態情報の多言語探索のための広範囲なデータセットを提案する。
トレーニング済みのTransformerモデル (mBERT と XLM-RoBERTa) では,これらのタスク間で高い性能を実現することができる。
論文 参考訳(メタデータ) (2023-06-09T19:15:20Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - mLUKE: The Power of Entity Representations in Multilingual Pretrained
Language Models [15.873069955407406]
我々は、エンティティ表現を持つ24言語で多言語モデルを訓練する。
本稿では,言語間移動タスクにおいて,単語ベース事前学習モデルより一貫して優れることを示す。
また,mLAMAデータセットを用いた多言語クローゼプロンプトタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2021-10-15T15:28:38Z) - A Multilingual Bag-of-Entities Model for Zero-Shot Cross-Lingual Text
Classification [16.684856745734944]
ゼロショット言語間テキスト分類の性能を向上する多言語バッグ・オブ・エンティリティモデルを提案する。
同じ概念を表す複数の言語のエンティティは、ユニークな識別子で定義される。
したがって、リソース豊富な言語のエンティティ機能に基づいて訓練されたモデルは、他の言語に直接適用することができる。
論文 参考訳(メタデータ) (2021-10-15T01:10:50Z) - Are Multilingual Models the Best Choice for Moderately Under-resourced
Languages? A Comprehensive Assessment for Catalan [0.05277024349608833]
この研究はカタルーニャ語に焦点を当て、中規模のモノリンガル言語モデルが最先端の大規模多言語モデルとどの程度競合するかを探求することを目的としている。
クリーンで高品質なカタルーニャ語コーパス(CaText)を構築し、カタルーニャ語(BERTa)のためのトランスフォーマーベースの言語モデルを訓練し、様々な設定で徹底的に評価する。
その結果,カタルーニャ語理解ベンチマーク(CLUB, Catalan Language Understanding Benchmark)が,オープンリソースとして公開された。
論文 参考訳(メタデータ) (2021-07-16T13:52:01Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。