論文の概要: Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models
- arxiv url: http://arxiv.org/abs/2308.16149v1
- Date: Wed, 30 Aug 2023 17:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 12:46:19.177207
- Title: Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models
- Title(参考訳): jaisとjais-chat:アラビア語中心の基礎と命令調整による大言語モデル
- Authors: Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Haonan
Li, Fajri Koto, Osama Mohammed Afzal, Samta Kamboj, Onkar Pandit, Rahul Pal,
Lalit Pradhan, Zain Muhammad Mujahid, Massa Baali, Alham Fikri Aji,
Zhengzhong Liu, Andy Hock, Andrew Feldman, Jonathan Lee, Andrew Jackson,
Preslav Nakov, Timothy Baldwin, Eric Xing
- Abstract要約: 私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
- 参考スコア(独自算出の注目度): 45.753602784317536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Jais and Jais-chat, new state-of-the-art Arabic-centric
foundation and instruction-tuned open generative large language models (LLMs).
The models are based on the GPT-3 decoder-only architecture and are pretrained
on a mixture of Arabic and English texts, including source code in various
programming languages. With 13 billion parameters, they demonstrate better
knowledge and reasoning capabilities in Arabic than any existing open Arabic
and multilingual models by a sizable margin, based on extensive evaluation.
Moreover, the models are competitive in English compared to English-centric
open models of similar size, despite being trained on much less English data.
We provide a detailed description of the training, the tuning, the safety
alignment, and the evaluation of the models. We release two open versions of
the model -- the foundation Jais model, and an instruction-tuned Jais-chat
variant -- with the aim of promoting research on Arabic LLMs. Available at
https://huggingface.co/inception-mbzuai/jais-13b-chat
- Abstract(参考訳): jais と jais-chat を新たに導入し,新しいアラビア語中心の基盤と,命令調整による大規模言語モデルである open generative large language models (llm) を導入した。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、様々なプログラミング言語のソースコードを含むアラビア語と英語のテキストが混在している。
13億のパラメータを持つアラビア語の知識と推論能力は、広範囲な評価に基づいて、既存のアラビア語と多言語モデルよりも大きなマージンで示される。
さらに、英語のデータがはるかに少ないにもかかわらず、同様の大きさの英語中心のオープンモデルと比較すると、モデルは英語で競争力がある。
モデルのトレーニング,チューニング,安全性アライメント,評価について詳細な説明を行う。
我々は、アラビア語のLLMの研究を促進するために、2つのオープンバージョン - 基礎的Jaisモデルと命令調整されたJais-chat変種 - をリリースする。
huggingface.co/inception-mbzuai/jais-13b-chatで利用可能
関連論文リスト
- ALLaM: Large Language Models for Arabic and English [9.881560166505452]
アラビア語技術(ALT)のエコシステムを支える一連の大規模言語モデルであるアラビア大言語モデル(ALaM: Arabic Large Language Model)を提示する。
我々の自己回帰デコーダのみのアーキテクチャモデルは、語彙拡張と事前訓練による第二言語習得が、原語(英語)で破滅的な忘れをすることなく、新しい言語(アラビア語)へのモデルを操る方法を示している。
人間の嗜好と広範囲なアライメントは,品質アライメントの低い大規模モデルと比較して言語モデルの性能を著しく向上させることができることを示す。
論文 参考訳(メタデータ) (2024-07-22T05:35:17Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - Bilingual Adaptation of Monolingual Foundation Models [48.859227944759986]
単言語大言語モデル(LLM)を他の言語に適応させる効率的な手法を提案する。
2段階のアプローチは、語彙を拡張し、埋め込み行列のみをトレーニングすることから始まります。
アラビア語と英語のコーパスを混ぜて継続的に事前訓練することで、このモデルは英語の習熟度を維持しつつ、アラビア語の能力を獲得している。
論文 参考訳(メタデータ) (2024-07-13T21:09:38Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Revisiting Pre-trained Language Models and their Evaluation for Arabic
Natural Language Understanding [44.048072667378115]
既存のアラビアのPLMは十分に探索されておらず、その事前訓練は大幅に改善できる。
文献にはこれらのモデルの体系的かつ再現可能な評価が欠如している。
我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-21T22:38:19Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。