論文の概要: NepaliGPT: A Generative Language Model for the Nepali Language
- arxiv url: http://arxiv.org/abs/2506.16399v1
- Date: Thu, 19 Jun 2025 15:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.1372
- Title: NepaliGPT: A Generative Language Model for the Nepali Language
- Title(参考訳): ネパール語GPT : ネパール語のための生成言語モデル
- Authors: Shushanta Pudasaini, Aman Shakya, Siddhartha Shrestha, Sahil Bhatta, Sunil Thapa, Sushmita Palikhe,
- Abstract要約: ネパール語の生成言語モデルは存在せず、微調整を含む下流のタスクはまだ検討されていない。
本研究はネパール語に特化した生成型大規模言語モデルである textitNepaliGPT を提案する。
- 参考スコア(独自算出の注目度): 0.10995326465245928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: After the release of ChatGPT, Large Language Models (LLMs) have gained huge popularity in recent days and thousands of variants of LLMs have been released. However, there is no generative language model for the Nepali language, due to which other downstream tasks, including fine-tuning, have not been explored yet. To fill this research gap in the Nepali NLP space, this research proposes \textit{NepaliGPT}, a generative large language model tailored specifically for the Nepali language. This research introduces an advanced corpus for the Nepali language collected from several sources, called the Devanagari Corpus. Likewise, the research introduces the first NepaliGPT benchmark dataset comprised of 4,296 question-answer pairs in the Nepali language. The proposed LLM NepaliGPT achieves the following metrics in text generation: Perplexity of 26.32245, ROUGE-1 score of 0.2604, causal coherence of 81.25\%, and causal consistency of 85.41\%.
- Abstract(参考訳): ChatGPTのリリース後、Large Language Models (LLMs)は近年大きな人気を集め、数千種類のLLMがリリースされている。
しかし、ネパール語の生成言語モデルは存在せず、微調整を含む下流のタスクはまだ検討されていない。
ネパールのNLP空間におけるこの研究ギャップを埋めるために,ネパール語に特化した生成型大規模言語モデルである「textit{NepaliGPT}」を提案する。
この研究は、Devanagari Corpusと呼ばれる複数の情報源から収集されたネパール語の高度なコーパスを紹介した。
同様に、この研究はネパール語で4,296の質問応答対からなる最初のネパールのGPTベンチマークデータセットを導入した。
提案手法は,26.32245,ROUGE-1スコア0.2604,因果コヒーレンス81.25\%,因果一貫性85.41\%である。
関連論文リスト
- Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers [0.0]
この研究は、まずWebスクレイピングを通じて要約データセットを作成することによって、ネパールのテキストの要約に関連する重要な課題に対処する。
次に、ROUGEスコアと人的評価を用いて、微調整モデルの性能を評価した。
LoRAモデルを用いた4ビット量子化mBARTは、より優れたネパールのニュースの見出しを生成するのに有効であることが判明した。
論文 参考訳(メタデータ) (2024-09-29T05:58:27Z) - Can Perplexity Predict Fine-tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
SentencePieceトークン化は、ネパールの理解に基づくタスクにおいて、一貫して優れた結果をもたらす。
本研究はシーケンシャルトランスフォーマーモデルについて検討し,低リソース言語における言語モデル開発に有用な知見を提供する。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - COVID-19-related Nepali Tweets Classification in a Low Resource Setting [0.15658704610960567]
ネパール語を用いて、Twitterコミュニティの中で最も一般的な8つのトピックを特定します。
ネパールのつぶやき分類のための2つの最先端多言語言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2022-10-11T13:08:37Z) - Understanding by Understanding Not: Modeling Negation in Language Models [81.21351681735973]
否定は自然言語の中核構造である。
本稿では,否定された総称文に基づく不一致目的を用いて,言語モデリング目標の強化を提案する。
否定されたLAMAデータセットの平均top1エラー率を4%に削減します。
論文 参考訳(メタデータ) (2021-05-07T21:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。