論文の概要: Paramanu: A Family of Novel Efficient Indic Generative Foundation
Language Models
- arxiv url: http://arxiv.org/abs/2401.18034v1
- Date: Wed, 31 Jan 2024 17:58:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:41:39.416958
- Title: Paramanu: A Family of Novel Efficient Indic Generative Foundation
Language Models
- Title(参考訳): paramanu: 新たな効率のよい帰納的基礎言語モデルの一家系
- Authors: Mitodru Niyogi and Arnab Bhattacharya
- Abstract要約: インド語の新しい言語モデルであるGyan AI Paramanu(原子)を紹介する。
自動回帰モノリンガル、バイリンガル、マルチリンガルのIndic言語モデルのコレクションで、1つのGPUでスクラッチから事前訓練されている。
モデルは、単一のGPU上で1024のコンテキストサイズで事前トレーニングされる。
- 参考スコア(独自算出の注目度): 4.609569810881602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Gyan AI Paramanu ("atom"), a family of novel language models for
Indian languages. It is a collection of auto-regressive monolingual, bilingual,
and multilingual Indic language models pretrained from scratch on a single GPU
for 10 Indian languages (Assamese, Bangla, Hindi, Konkani, Maithili, Marathi,
Odia, Sanskrit, Tamil, Telugu) across 5 scripts (Bangla, Devanagari, Odia,
Tamil, Telugu) of varying sizes ranging from 13.29M to 367.5M.The models are
pretrained with a context size of 1024 on a single GPU. The models are very
efficient, small, fast, and powerful. We have also developed an efficient most
advanced Indic tokenizer that can even tokenize unseen languages. In order to
avoid the "curse of multi-linguality" in our multilingual mParamanu model, we
pretrained on comparable corpora by typological grouping using the same script.
We performed human evaluation of our pretrained models for open end text
generation on grammar, coherence, creativity, and factuality metrics for
Bangla, Hindi, and Sanskrit. Our Bangla, Hindi, and Sanskrit models
outperformed GPT-3.5-Turbo (ChatGPT), Bloom 7B, LLaMa-2 7B, OPT 6.7B, GPT-J 6B,
GPTNeo 1.3B, GPT2-XL large language models (LLMs) by a large margin despite
being smaller in size by 66 to 20 times compared to standard 7B LLMs. To run
inference on our pretrained models, CPU is enough, and GPU is not needed. We
also instruction-tuned our pretrained Bangla, Hindi, Marathi, Tamil, and Telugu
models on 23k instructions in respective languages. Our pretrained and
instruction-tuned models which are first of its kind, most powerful efficient
small generative language models ever developed for Indic languages, and the
various results lead to the conclusion that high quality generative language
models are possible without high amount of compute power and humongous number
of parameters. We plan to release our models at https://www.bharatgpts.com.
- Abstract(参考訳): 本稿では,インド語の新しい言語モデルであるgyan ai paramanu(アトム)について述べる。
10のインド語(アサム語、バングラ語、ヒンディー語、コンカニ語、マライリ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)の1つのgpuで、13.29mから367.5mまでのさまざまな大きさの5つのスクリプト(バングラ語、デヴァナガリ語、オディア語、タミル語、テルグ語)で事前学習されている。
モデルは非常に効率的で、小さく、速く、強力です。
我々はまた、目に見えない言語をトークン化できる効率的な最も高度なIndicトークンライザも開発した。
多言語mparamanuモデルにおける「多言語性の問題」を避けるため、同一のスクリプトを用いたタイポロジーグループ化により、同等のコーパスを事前学習した。
我々は,Bangla,Hindi,Sanskritの文法,コヒーレンス,クリエイティビティ,事実性指標に基づくオープンエンドテキスト生成のための事前学習されたモデルの人間による評価を行った。
GPT-3.5-Turbo (ChatGPT), Bloom 7B, LLaMa-2 7B, OPT 6.7B, GPT-J 6B, GPTNeo 1.3B, GPT2-XL大言語モデル (LLMs) は, 標準7B LLMの66倍から20倍に小さかった。
事前トレーニングされたモデルで推論を実行するには、CPUだけで十分であり、GPUは必要ない。
また,事前学習したバングラ,ヒンディー語,マラティ語,タミル語,テルグ語を,それぞれの言語で23k命令で指示調整した。
Indic言語で開発された最強で効率的な小型生成言語モデルである事前学習型および命令調整型モデルと、その様々な結果から、高い計算能力と謙虚なパラメータを伴わずに高品質な生成言語モデルが可能であるという結論が導かれる。
私たちはモデルをhttps://www.bharatgpts.comでリリースする予定です。
関連論文リスト
- Poro 34B and the Blessing of Multilinguality [3.270981284471548]
Poro 34Bは、フィンランド語、英語、プログラミング言語の1兆トークンのために訓練された34億のパラメータモデルである。
フィンランド語における既存モデルの能力を大幅に向上するモデルを,多言語学習アプローチにより生成できることが示される。
論文 参考訳(メタデータ) (2024-04-02T11:34:12Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - SERENGETI: Massively Multilingual Language Models for Africa [5.945320097465418]
SERENGETIは517のアフリカの言語と言語を包含する多言語言語モデルである。
我々は、20のデータセットにまたがる8つの自然言語理解タスクに関する新しいモデルを評価し、4-23のアフリカの言語をカバーする4mPLMと比較した。
論文 参考訳(メタデータ) (2022-12-21T05:54:14Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - Give your Text Representation Models some Love: the Case for Basque [24.76979832867631]
単語の埋め込みと事前訓練された言語モデルは、テキストのリッチな表現を構築することができる。
多くの小規模企業や研究グループは、サードパーティによって事前訓練され利用可能になったモデルを使用する傾向にある。
これは、多くの言語において、モデルはより小さい(またはより低い)コーパスで訓練されているため、亜最適である。
より大規模なバスク語コーパスを用いて学習したモノリンガルモデルでは、下流のNLPタスクで利用可能なバージョンよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-03-31T18:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。