論文の概要: ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic
- arxiv url: http://arxiv.org/abs/2101.01785v1
- Date: Sun, 27 Dec 2020 06:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 23:58:49.754121
- Title: ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic
- Title(参考訳): ARBERT & MARBERT:アラビア語用双方向変換器
- Authors: Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi
- Abstract要約: ARBERTとMARBERTの2つの強力な双方向トランスベースのモデルを紹介し、既存のすべてのモデルに優れた性能を発揮します。
ArBenchは5つのタスク/タスククラスタを対象とした41のデータセットを使用して構築されている。
ArBenchで微調整を行うと、ARBERTとMARBERTは既存のモデルと比べて大きなマージンを持つ新しいSOTAを達成する。
- 参考スコア(独自算出の注目度): 6.021269454707625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked language models (MLM) have become an integral part of many natural
language processing systems. Although multilingual MLMs have been introduced to
serve many languages, these have limitations as to their capacity and the size
and diversity of non-English data they are pre-trained on. In this work, we
remedy these issues for Arabic by introducing two powerful deep bidirectional
transformer-based models, ARBERT and MARBERT, that have superior performance to
all existing models. To evaluate our models, we propose ArBench, a new
benchmark for multi-dialectal Arabic language understanding. ArBench is built
using 41 datasets targeting 5 different tasks/task clusters, allowing us to
offer a series of standardized experiments under rich conditions. When
fine-tuned on ArBench, ARBERT and MARBERT collectively achieve new SOTA with
sizeable margins compared to all existing models such as mBERT, XLM-R (Base and
Large), and AraBERT on 37 out of 45 classification tasks on the 41 datasets
(%82.22). Our models are publicly available for research.
- Abstract(参考訳): マスケッド言語モデル(MLM)は多くの自然言語処理システムにおいて不可欠な部分となっている。
多言語MLMは、多くの言語を提供するために導入されたが、これらには、事前訓練されている英語以外のデータのサイズと多様性に関する制限がある。
本研究では、アラビア語におけるこれらの問題を、既存のモデルよりも優れた性能を持つ2つの強力な双方向トランスフォーマーモデル、ARBERTとMARBERTを導入することで改善する。
本モデルを評価するために,多言語アラビア語理解のための新しいベンチマークArBenchを提案する。
ArBenchは5つのタスク/タスククラスタを対象とした41のデータセットを使用して構築されています。
ArBenchで微調整された場合、ArBERTとMARBERTは、41データセット(%82.22)の45の分類タスクのうち37の領域で、mBERT、XLM-R(Base and Large)、AraBERTといった既存のモデルと比較して大きなマージンを持つ新しいSOTAを達成する。
私たちのモデルは研究用に公開されています。
関連論文リスト
- Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks [17.5987429821102]
スワン(Swan)は、アラビア語を中心にした埋め込みモデルのファミリーである。
2つの変種: Swan-SmallはArBERTv2をベースとしており、Swan-Largeはアラビア語で事前訓練された大言語モデルであるArMistralをベースとしている。
論文 参考訳(メタデータ) (2024-11-02T09:39:49Z) - Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
既存のDarija言語リソースを統合することで,命令データセットを構築する。
データセットに微調整されたAtlas-Chat-2B、9B、27Bモデルは、Darija命令に従う上で優れた能力を示す。
論文 参考訳(メタデータ) (2024-09-26T14:56:38Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。
我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。
複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文 参考訳(メタデータ) (2024-07-02T10:43:49Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - AraMUS: Pushing the Limits of Data and Model Scale for Arabic Natural
Language Processing [25.5682279613992]
AraMUSはアラビア最大のPLMで、高品質のアラビア文字データ529GBで訓練された11Bパラメータを持つ。
AraMUSはアラビア語の分類と生成タスクの多様なセットで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-06-11T22:55:18Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。