論文の概要: Towards Nepali-language LLMs: Efficient GPT training with a Nepali BPE tokenizer
- arxiv url: http://arxiv.org/abs/2512.14585v1
- Date: Tue, 16 Dec 2025 16:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.802007
- Title: Towards Nepali-language LLMs: Efficient GPT training with a Nepali BPE tokenizer
- Title(参考訳): ネパール語 LLM に向けて:ネパールの BPE トークン化器を用いた効率的な GPT トレーニング
- Authors: Adarsha Shrestha, Basanta Pokharel, Binit Shrestha, Smriti Adhikari, Dinesh Gothe,
- Abstract要約: 本研究は、GPT-3にインスパイアされた複数のトレーニング戦略を用いて訓練された、GPT-2に基づくネパール語モデルを提案する。
このモデルは3.168177のトレーニング損失、3.08 1982の検証損失、21.80の最終的な難しさを達成し、一貫性のあるネパールのニューススタイルのテキストを生成する能力を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nepali, a low-resource language spoken by over 32 million people, continues to face challenges in natural language processing (NLP) due to its complex grammar, agglutinative morphology, and limited availability of high-quality corpora. Most efforts to date have centered on basic encoder architectures; they remain insufficient for Nepali-specific text generation. This study presents a GPT-2-based Nepali language model trained using several training strategies inspired by GPT-3, including optimized learning rate schedules, batch scaling, and architectural refinements. A custom 16k Byte-Pair Encoding (BPE) tokenizer was trained exclusively on Nepali text to ensure more consistent segmentation and improved input representation. The model was pretrained on a combined dataset comprising a 10.75GB cleaned NepBERTa corpus and additional web-scraped Nepali news articles. FlashAttention was integrated to reduce memory usage and stabilize training. After two epochs, the model achieved a training loss of 3.168177, a validation loss of 3.081982, and a final perplexity of 21.80, demonstrating its capability to generate coherent Nepali news-style text.
- Abstract(参考訳): ネパール語は、3200万人以上の人々が話す低リソース言語であり、複雑な文法、凝集形態、高品質コーパスの限られた利用のために、自然言語処理(NLP)の課題に直面し続けている。
現在までのほとんどの取り組みは基本的なエンコーダアーキテクチャに重点を置いており、ネパール固有のテキスト生成には不十分なままである。
本研究は, GPT-3にインスパイアされた複数のトレーニング戦略を用いて, GPT-2に基づくネパール語モデルを訓練し, 学習率の最適化, バッチスケーリング, アーキテクチャ改良を行った。
16k Byte-Pair Encoding (BPE) トークンはネパール語でのみ訓練され、より一貫性のあるセグメンテーションと入力表現の改善が保証された。
このモデルは、10.75GBのクリーニングされたNepBERTaコーパスと追加のウェブスクラッチされたネパールのニュース記事からなる統合データセットで事前訓練された。
FlashAttentionはメモリ使用量の削減とトレーニングの安定化のために統合された。
2つの時代を経て、このモデルは3.168177のトレーニング損失、3.08 1982の検証損失、21.80の最終的な難しさを達成し、一貫性のあるネパールのニューススタイルのテキストを生成する能力を示した。
関連論文リスト
- mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - H-Net++: Hierarchical Dynamic Chunking for Tokenizer-Free Language Modelling in Morphologically-Rich Languages [0.6629765271909505]
H-NET++は階層的な動的チャンキングモデルであり、エンドツーエンドのトレーニングを通じて言語的にインフォームドされたセグメンテーションを学ぶ。
1.4Bのペルシャコーパスでは、H-NET++は最先端の結果を得る。
論文 参考訳(メタデータ) (2025-08-07T17:59:01Z) - NepaliGPT: A Generative Language Model for the Nepali Language [0.10995326465245928]
ネパール語の生成言語モデルは存在せず、微調整を含む下流のタスクはまだ検討されていない。
本研究はネパール語に特化した生成型大規模言語モデルである textitNepaliGPT を提案する。
論文 参考訳(メタデータ) (2025-06-19T15:31:12Z) - Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Bag of Tricks for Effective Language Model Pretraining and Downstream
Adaptation: A Case Study on GLUE [93.98660272309974]
このレポートでは、ジェネラル言語理解評価のリーダーボードに関するVega v1を簡潔に紹介します。
GLUEは、質問応答、言語受容性、感情分析、テキスト類似性、パラフレーズ検出、自然言語推論を含む9つの自然言語理解タスクのコレクションである。
最適化された事前学習と微調整の戦略により、13億のモデルは4/9タスクに新しい最先端のタスクを設定し、91.3の平均スコアを達成しました。
論文 参考訳(メタデータ) (2023-02-18T09:26:35Z) - From Universal Language Model to Downstream Task: Improving
RoBERTa-Based Vietnamese Hate Speech Detection [8.602181445598776]
汎用のRoBERTa言語モデルを特定のテキスト分類タスクであるベトナムのヘイト音声検出に適応させるパイプラインを提案する。
実験の結果,提案パイプラインの性能が著しく向上し,0.7221 f1のベトナム人ヘイトスピーチ検出キャンペーンが達成された。
論文 参考訳(メタデータ) (2021-02-24T09:30:55Z) - CPM: A Large-scale Generative Chinese Pre-trained Language Model [76.65305358932393]
我々は,大規模な中国語学習データに基づく生成事前学習を備えた中国語事前学習言語モデル(CPM)をリリースする。
CPMは、数ショット(ゼロショットでも)学習の設定において、多くのNLPタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-01T11:32:56Z) - Language Models are Few-Shot Learners [61.36677350504291]
言語モデルのスケールアップにより、タスクに依存しない、少数ショットのパフォーマンスが大幅に向上することを示す。
我々は、1750億のパラメータを持つ自動回帰言語モデルであるGPT-3を訓練し、その性能を数ショットでテストする。
GPT-3は、翻訳、質問応答、クローズタスクを含む多くのNLPデータセットで高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-05-28T17:29:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。