論文の概要: MaLLaM -- Malaysia Large Language Model
- arxiv url: http://arxiv.org/abs/2401.14680v2
- Date: Mon, 29 Jan 2024 07:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 11:31:48.739675
- Title: MaLLaM -- Malaysia Large Language Model
- Title(参考訳): MaLLaM -- マレーシアの大規模言語モデル
- Authors: Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan
- Abstract要約: 私たちは、349GBのデータセットで11億、30億、50億のパラメータを持つモデルをトレーニングしました。
MaLLaMは、マレー語における自然言語理解と生成タスクの強化に貢献している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Addressing the gap in Large Language Model pretrained from scratch with
Malaysian context, We trained models with 1.1 billion, 3 billion, and 5 billion
parameters on a substantial 349GB dataset, equivalent to 90 billion tokens
based on our pretrained Byte Pair Encoding (BPE) tokenizer for a single epoch.
MaLLaM contributes to enhanced natural language understanding and generation
tasks in the Malay language. Although trained on a smaller dataset of 90
billion tokens, our instruction-tuned MaLLaM models perform competitively. When
compared to ChatGPT3.5 and Malaysian Mistral, MaLLaM's instruction-tuned models
demonstrate notable proficiency, underscoring the effectiveness of our approach
in capturing and understanding the nuances of the Malaysian language. MaLLaM
models mark a significant contribution to the field, providing comprehensive
language representations grounded in Malaysian context. This endeavor aims to
pave the way for enhanced natural language understanding and generation tasks
specific to the linguistic nuances present in Malaysia. We discuss the training
methodology, dataset composition, and the potential impact of MaLLaM in
advancing the capabilities of large language models within the context of the
Malay language.
All models released at
https://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930f
- Abstract(参考訳): マレーシアのコンテキストで、スクラッチから事前トレーニングされた大規模言語モデルのギャップに対処するために、私たちは、事前トレーニングされたバイトペアエンコーディング(bpe)トークンライザに基づいた90億トークンに相当する、実質的な349gbデータセット上で、11億、30億、50億のパラメータを持つモデルを、1つのエポックでトレーニングしました。
MaLLaMはマレー語における自然言語理解と生成タスクの強化に貢献している。
900億トークンの小さなデータセットでトレーニングされているにもかかわらず、命令チューニングされたMaLLaMモデルは競合的に動作します。
ChatGPT3.5やマレーシアのMistralと比較すると、MaLLaMの指導訓練モデルは優れた習熟度を示し、マレーシア語のニュアンスを捕捉し理解するためのアプローチの有効性を裏付けている。
MaLLaMモデルは、マレーシアの文脈に根ざした包括的な言語表現を提供する、この分野への重要な貢献を示す。
この取り組みは、マレーシアに存在する言語ニュアンス特有の自然言語理解と生成タスクの強化への道を開くことを目的としている。
マレー語の文脈における大規模言語モデルの能力向上における,MaLLaMのトレーニング方法論,データセット構成,および潜在的影響について論じる。
すべてのモデルがhttps://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930fでリリース
関連論文リスト
- SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Bridging the Gap: Transfer Learning from English PLMs to Malaysian English [1.8241632171540025]
マレーシア英語は低資源クレオール言語である。
名前付きエンティティ認識モデルは、マレーシア英語のテキストからエンティティをキャプチャするときに性能が低下する。
MENmBERT と MENBERT は,文脈理解を伴う事前学習型言語モデルである。
論文 参考訳(メタデータ) (2024-07-01T15:26:03Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - Large Malaysian Language Model Based on Mistral for Enhanced Local
Language Understanding [0.0]
大規模言語モデルであるMistral 7Bの事前学習の進歩を示す。
コンテクスト長4096と32768のトークンを持つモデルをリリースし、16384のコンテクスト長調整モデルでさらなる性能向上を図る。
マレーシアのミストラルがタタバハサ(マレー文法)テストセットで優れていることを示す説得力のある結果を示す。
論文 参考訳(メタデータ) (2024-01-24T16:21:28Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - SMaLL-100: Introducing Shallow Multilingual Machine Translation Model
for Low-Resource Languages [102.50127671423752]
本稿では,100言語をカバーするM2M-100(12B)機械翻訳モデルの蒸留版であるSMaLL-100を紹介する。
我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。
我々のモデルはM2M-100(1.2B)に匹敵する結果を得るが、推論では3.6倍小さく、4.3倍高速である。
論文 参考訳(メタデータ) (2022-10-20T22:32:29Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。