論文の概要: Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language
- arxiv url: http://arxiv.org/abs/2602.23940v1
- Date: Fri, 27 Feb 2026 11:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.395208
- Title: Benchmarking BERT-based Models for Sentence-level Topic Classification in Nepali Language
- Title(参考訳): ネパール語における文レベルのトピック分類のためのBERTモデルベンチマーク
- Authors: Nischal Karki, Bipesh Subedi, Prakash Poudyal, Rupak Raj Ghimire, Bal Krishna Bal,
- Abstract要約: 本研究は、ネパールのトピック分類において、多言語、インド、ヒンディー語、ネパールのBERT変異をベンチマークし、その有効性を評価する。
mBERT、XLM-R、MuRIL、DevBERT、HindiBERT、IndicBERT、NepBERTaを含む10種類の事前訓練モデルが微調整されテストされた。
インデックスモデル、特に MuRIL-large は F1 スコアの90.60% を達成し、多言語モデルやモノリンガルモデルを上回った。
- 参考スコア(独自算出の注目度): 1.6474262142781433
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based models such as BERT have significantly advanced Natural Language Processing (NLP) across many languages. However, Nepali, a low-resource language written in Devanagari script, remains relatively underexplored. This study benchmarks multilingual, Indic, Hindi, and Nepali BERT variants to evaluate their effectiveness in Nepali topic classification. Ten pre-trained models, including mBERT, XLM-R, MuRIL, DevBERT, HindiBERT, IndicBERT, and NepBERTa, were fine-tuned and tested on the balanced Nepali dataset containing 25,006 sentences across five conceptual domains and the performance was evaluated using accuracy, weighted precision, recall, F1-score, and AUROC metrics. The results reveal that Indic models, particularly MuRIL-large, achieved the highest F1-score of 90.60%, outperforming multilingual and monolingual models. NepBERTa also performed competitively with an F1-score of 88.26%. Overall, these findings establish a robust baseline for future document-level classification and broader Nepali NLP applications.
- Abstract(参考訳): BERTのようなトランスフォーマーベースのモデルは、多くの言語でかなり進歩した自然言語処理(NLP)を備えている。
しかし、デヴァナガリ文字で書かれた低リソース言語であるネパール語は、いまだにあまり研究されていない。
本研究は、ネパールのトピック分類において、多言語、インド、ヒンディー語、ネパールのBERT変異をベンチマークし、その有効性を評価する。
mBERT, XLM-R, MuRIL, DevBERT, HindiBERT, IndicBERT, NepBERTaを含む10種類の事前学習モデルを,5つの概念領域にわたる25,006文を含むネパールのバランスデータセットで微調整し,精度,重み付け精度,リコール,F1スコア,AUROC測定値を用いて評価した。
その結果、Indicモデル、特に MuRIL-large が最も高いF1スコアを90.60%達成し、マルチリンガルモデルとモノリンガルモデルを上回ったことが明らかとなった。
NepBERTaはF1スコア88.26%の競争力を持つ。
全体として、これらの知見は将来の文書レベルの分類とより広範なネパールのNLPアプリケーションのための堅牢なベースラインを確立している。
関連論文リスト
- Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Fine-Tuning Small Embeddings for Elevated Performance [0.0]
この研究はネパール語で事前訓練された6つの注意点を持つ不完全なBERTモデルを採用し、これまで見つからなかったデータに基づいて微調整した。
その結果, オラクルの平均値が良くても, 小さな埋め込みを微調整すると, 元のベースラインに比べて大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-11-27T07:25:07Z) - Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers [0.0]
この研究は、まずWebスクレイピングを通じて要約データセットを作成することによって、ネパールのテキストの要約に関連する重要な課題に対処する。
次に、ROUGEスコアと人的評価を用いて、微調整モデルの性能を評価した。
LoRAモデルを用いた4ビット量子化mBARTは、より優れたネパールのニュースの見出しを生成するのに有効であることが判明した。
論文 参考訳(メタデータ) (2024-09-29T05:58:27Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - An Attention Ensemble Approach for Efficient Text Classification of
Indian Languages [0.0]
本稿では,インド・デヴァナガリ文字を母語とするマラーティー語における短文文書の細かな技術領域識別について述べる。
畳み込みニューラルネットワークが生成する中間文表現と双方向の長期記憶とを合体させ,効率的なテキスト分類を実現するcnn-bilstm注意アンサンブルモデルを提案する。
実験結果から,提案モデルが与えられたタスクにおける各種ベースライン機械学習および深層学習モデルより優れ,89.57%,f1スコア0.8875の検証精度が得られた。
論文 参考訳(メタデータ) (2021-02-20T07:31:38Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。