論文の概要: ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic
- arxiv url: http://arxiv.org/abs/2101.01785v1
- Date: Sun, 27 Dec 2020 06:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 23:58:49.754121
- Title: ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic
- Title(参考訳): ARBERT & MARBERT:アラビア語用双方向変換器
- Authors: Muhammad Abdul-Mageed, AbdelRahim Elmadany, El Moatez Billah Nagoudi
- Abstract要約: ARBERTとMARBERTの2つの強力な双方向トランスベースのモデルを紹介し、既存のすべてのモデルに優れた性能を発揮します。
ArBenchは5つのタスク/タスククラスタを対象とした41のデータセットを使用して構築されている。
ArBenchで微調整を行うと、ARBERTとMARBERTは既存のモデルと比べて大きなマージンを持つ新しいSOTAを達成する。
- 参考スコア(独自算出の注目度): 6.021269454707625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked language models (MLM) have become an integral part of many natural
language processing systems. Although multilingual MLMs have been introduced to
serve many languages, these have limitations as to their capacity and the size
and diversity of non-English data they are pre-trained on. In this work, we
remedy these issues for Arabic by introducing two powerful deep bidirectional
transformer-based models, ARBERT and MARBERT, that have superior performance to
all existing models. To evaluate our models, we propose ArBench, a new
benchmark for multi-dialectal Arabic language understanding. ArBench is built
using 41 datasets targeting 5 different tasks/task clusters, allowing us to
offer a series of standardized experiments under rich conditions. When
fine-tuned on ArBench, ARBERT and MARBERT collectively achieve new SOTA with
sizeable margins compared to all existing models such as mBERT, XLM-R (Base and
Large), and AraBERT on 37 out of 45 classification tasks on the 41 datasets
(%82.22). Our models are publicly available for research.
- Abstract(参考訳): マスケッド言語モデル(MLM)は多くの自然言語処理システムにおいて不可欠な部分となっている。
多言語MLMは、多くの言語を提供するために導入されたが、これらには、事前訓練されている英語以外のデータのサイズと多様性に関する制限がある。
本研究では、アラビア語におけるこれらの問題を、既存のモデルよりも優れた性能を持つ2つの強力な双方向トランスフォーマーモデル、ARBERTとMARBERTを導入することで改善する。
本モデルを評価するために,多言語アラビア語理解のための新しいベンチマークArBenchを提案する。
ArBenchは5つのタスク/タスククラスタを対象とした41のデータセットを使用して構築されています。
ArBenchで微調整された場合、ArBERTとMARBERTは、41データセット(%82.22)の45の分類タスクのうち37の領域で、mBERT、XLM-R(Base and Large)、AraBERTといった既存のモデルと比較して大きなマージンを持つ新しいSOTAを達成する。
私たちのモデルは研究用に公開されています。
関連論文リスト
- ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [53.1913348687902]
アラビア語に対する最初のマルチタスク言語理解ベンチマークであるアラビアMMLUを提示する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575の多重選択質問からなる。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - AraMUS: Pushing the Limits of Data and Model Scale for Arabic Natural
Language Processing [25.5682279613992]
AraMUSはアラビア最大のPLMで、高品質のアラビア文字データ529GBで訓練された11Bパラメータを持つ。
AraMUSはアラビア語の分類と生成タスクの多様なセットで最先端のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-06-11T22:55:18Z) - BLOOM: A 176B-Parameter Open-Access Multilingual Language Model [264.96498474333697]
大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。
BLOOMは、176Bパラメータのオープンアクセス言語モデルであり、数百人の研究者の協力により設計・構築されている。
BLOOMは、RATSコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルである。
論文 参考訳(メタデータ) (2022-11-09T18:48:09Z) - DziriBERT: a Pre-trained Language Model for the Algerian Dialect [2.064612766965483]
アラビア語や多言語モデルの使用を不適切なものにするいくつかの特異性を持つアルジェ方言について検討する。
この問題を解決するために、100万以上のアルジェリア語ツイートを収集し、最初のアルジェリア語モデルであるDziriBERTを事前訓練しました。
論文 参考訳(メタデータ) (2021-09-25T11:51:35Z) - AraT5: Text-to-Text Transformers for Arabic Language Understanding and
Generation [6.021269454707625]
アラビア語生成のための新しいベンチマーク(ARGEN)を導入する。
アラビア語固有のテキスト・トゥ・テキスト・トランスフォーマーベースの3つのモデルを事前学習し、2つのベンチマークで評価する。
我々の新しいモデルはmT5よりも大幅に優れており、アラビア語の理解に基づいて現在最先端のアラビア語 BERT ベースのモデルである MARBERT よりも優れている。
論文 参考訳(メタデータ) (2021-08-31T02:02:10Z) - UPB at SemEval-2020 Task 12: Multilingual Offensive Language Detection
on Social Media by Fine-tuning a Variety of BERT-based Models [0.0]
本稿では,Twitter上の攻撃的言語を5言語で識別するTransformerベースのソリューションについて述べる。
これは、Offenseval 2020のSubtask Aの共有タスクで使用された。
論文 参考訳(メタデータ) (2020-10-26T14:28:29Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。