論文の概要: KyrgyzBERT: A Compact, Efficient Language Model for Kyrgyz NLP
- arxiv url: http://arxiv.org/abs/2511.20182v1
- Date: Tue, 25 Nov 2025 11:05:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.415957
- Title: KyrgyzBERT: A Compact, Efficient Language Model for Kyrgyz NLP
- Title(参考訳): KyrgyzBERT: Kyrgyz NLPのためのコンパクトで効率的な言語モデル
- Authors: Adilet Metinov, Gulida M. Kudakeeva, Gulnara D. Kabaeva,
- Abstract要約: KyrgyzBERTは、KyrgyzのためのモノリンガルBERTベースの言語モデルである。
このモデルは35.9Mパラメータを持ち、言語の形態的構造のために設計されたカスタムトークンを使用する。
Kyrgyz-sst2は、Stanford Sentiment Treebankを翻訳し、手動で完全なテストセットを注釈付けすることで構築された感情分析ベンチマークである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Kyrgyz remains a low-resource language with limited foundational NLP tools. To address this gap, we introduce KyrgyzBERT, the first publicly available monolingual BERT-based language model for Kyrgyz. The model has 35.9M parameters and uses a custom tokenizer designed for the language's morphological structure. To evaluate performance, we create kyrgyz-sst2, a sentiment analysis benchmark built by translating the Stanford Sentiment Treebank and manually annotating the full test set. KyrgyzBERT fine-tuned on this dataset achieves an F1-score of 0.8280, competitive with a fine-tuned mBERT model five times larger. All models, data, and code are released to support future research in Kyrgyz NLP.
- Abstract(参考訳): Kyrgyzは、基礎的なNLPツールが限られている低リソース言語である。
このギャップに対処するために、KyrgyzBERTを紹介します。
このモデルは35.9Mパラメータを持ち、言語の形態的構造のために設計されたカスタムトークンを使用する。
評価のために、Stanford Sentiment Treebankを翻訳し、手動で全テストセットを注釈付けして構築した感情分析ベンチマークであるKyrgyz-sst2を作成する。
このデータセットで微調整されたキルギスBERTはF1スコア0.8280を達成し、細調整されたmBERTモデルと5倍の精度で競合する。
すべてのモデル、データ、コードは、将来のキルギスNLP研究をサポートするためにリリースされている。
関連論文リスト
- SindBERT, the Sailor: Charting the Seas of Turkish NLP [0.05570276034354691]
SindBERTはトルコの312GBのテキストでスクラッチから訓練されている。
我々はSindBERTを音声タグ付け、エンティティ認識、攻撃的言語検出、TurBLiMP言語受容性ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-10-24T11:48:49Z) - HausaMovieReview: A Benchmark Dataset for Sentiment Analysis in Low-Resource African Language [1.3465808629549525]
本稿では,Hausaにおける5000のYouTubeコメントとコードスイッチによる英語を含む新しいベンチマークデータセットを提案する。
このデータセットを用いて、古典モデルと微調整変換器モデルの比較分析を行う。
精度が89.72%、F1スコアが89.60%のDecision Tree分類器は、ディープラーニングモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-09-17T22:57:21Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - NER- RoBERTa: Fine-Tuning RoBERTa for Named Entity Recognition (NER) within low-resource languages [3.5403652483328223]
本研究は、クルド人NER(KNER)のための事前学習されたRoBERTaモデルの微調整手法を提案する。
実験の結果,SentencePieceトークン化方式で調整したRoBERTaはKNERの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-12-15T07:07:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Russian SuperGLUE 1.1: Revising the Lessons not Learned by Russian NLP
models [53.95094814056337]
本稿では,ロシアNLPモデルのGLUEを改良したベンチマークである,ロシアのSuperGLUE 1.1を提案する。
新バージョンには、技術的、ユーザエクスペリエンス、方法論的改善が多数含まれている。
我々は,ロシアのSuperGLUEをオープンソースモデルMOROCCOの産業的評価のためのフレームワークに統合する。
論文 参考訳(メタデータ) (2022-02-15T23:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。