論文の概要: Development of Pre-Trained Transformer-based Models for the Nepali Language
- arxiv url: http://arxiv.org/abs/2411.15734v1
- Date: Sun, 24 Nov 2024 06:38:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:23:53.372200
- Title: Development of Pre-Trained Transformer-based Models for the Nepali Language
- Title(参考訳): ネパール語のための事前学習型トランスフォーマーモデルの開発
- Authors: Prajwal Thapa, Jinu Nyachhyon, Mridul Sharma, Bal Krishna Bal,
- Abstract要約: 全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Transformer-based pre-trained language models have dominated the field of Natural Language Processing (NLP) for quite some time now. However, the Nepali language, spoken by approximately 32 million people worldwide, remains significantly underrepresented in this domain. This underrepresentation is primarily attributed to the scarcity of monolingual data corpora and limited available resources for the Nepali language. While existing efforts have predominantly concentrated on basic encoder-based models, there is a notable gap in the exploration of decoder-based architectures. To address this gap, we have collected 27.5 GB of Nepali text data, approximately 2.4x larger than any previously available Nepali language corpus. Leveraging this data, we pre-trained three different models i.e., BERT, RoBERTa, and GPT-2, exclusively for the Nepali Language. Furthermore, we performed instruction tuning and explored its potential for monolingual Nepali data, providing a foundation for future research. Our models outperformed the existing best model by 2 points on Nep-gLUE benchmark, scoring 95.60 and also outperformed existing models on text generation tasks, demonstrating improvements in both understanding and generating Nepali text.
- Abstract(参考訳): トランスフォーマーベースの事前訓練型言語モデルは、かなり前から自然言語処理(NLP)の分野を支配してきた。
しかし、全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
この不足は、主にモノリンガルデータコーパスの不足とネパール語の限られた資源が原因である。
既存の取り組みは主に基本的なエンコーダベースのモデルに集中しているが、デコーダベースのアーキテクチャの探索には顕著なギャップがある。
このギャップに対処するため,ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
このデータを活用することで,ネパール語専用のBERT,RoBERTa,GPT-2の3種類のモデルを事前訓練した。
さらに,インストラクションチューニングを行い,モノリンガルネパール語データの可能性を探究し,今後の研究の基盤となった。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクにおける既存のモデルよりも優れ、ネパール語の理解と生成の両面で改善された。
関連論文リスト
- Domain-adaptative Continual Learning for Low-resource Tasks: Evaluation on Nepali [0.20999222360659603]
ドメイン適応型事前トレーニング(DAPT)は、トレーニング済みの言語モデルを継続的にトレーニングして、元々トレーニングされていないドメインに適応させることに重点を置いている。
合成データを用いてLlama 3 8Bを4ビットQLoRA設定でネパール語に適応させる訓練を継続する。
適応モデルの性能, 忘れ, 知識獲得について評価する。
論文 参考訳(メタデータ) (2024-12-18T13:53:59Z) - Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages [11.540702510360985]
我々は、8つのインドの言語にまたがる280万行以上の英語とインデックスとインデックスの高品質な翻訳ペアを含む並列コーパスを作成します。
我々は、このコーパスを用いてNMTモデルを微調整し、評価し、ドメイン内のタスクで利用可能な他のすべてのモデルを超えます。
論文 参考訳(メタデータ) (2024-12-12T07:40:55Z) - Fine-Tuning Small Embeddings for Elevated Performance [0.0]
この研究はネパール語で事前訓練された6つの注意点を持つ不完全なBERTモデルを採用し、これまで見つからなかったデータに基づいて微調整した。
その結果, オラクルの平均値が良くても, 小さな埋め込みを微調整すると, 元のベースラインに比べて大幅に改善することがわかった。
論文 参考訳(メタデータ) (2024-11-27T07:25:07Z) - Abstractive Summarization of Low resourced Nepali language using Multilingual Transformers [0.0]
この研究は、まずWebスクレイピングを通じて要約データセットを作成することによって、ネパールのテキストの要約に関連する重要な課題に対処する。
次に、ROUGEスコアと人的評価を用いて、微調整モデルの性能を評価した。
LoRAモデルを用いた4ビット量子化mBARTは、より優れたネパールのニュースの見出しを生成するのに有効であることが判明した。
論文 参考訳(メタデータ) (2024-09-29T05:58:27Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットにおけるNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural
Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。
CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文 参考訳(メタデータ) (2021-10-16T10:59:39Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Pre-training Polish Transformer-based Language Models at Scale [1.0312968200748118]
本稿では,人気のあるBERTアーキテクチャに基づくポーランド語のための2つの言語モデルを提案する。
本稿では,データを収集し,コーパスを作成し,モデルを事前学習するための方法論について述べる。
次に、ポーランド語の13の課題について、我々のモデルを評価し、そのうち11つの改善点を実証する。
論文 参考訳(メタデータ) (2020-06-07T18:48:58Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。