論文の概要: AraBERT: Transformer-based Model for Arabic Language Understanding
- arxiv url: http://arxiv.org/abs/2003.00104v4
- Date: Sun, 7 Mar 2021 13:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:24:23.942405
- Title: AraBERT: Transformer-based Model for Arabic Language Understanding
- Title(参考訳): AraBERT:アラビア語理解のためのトランスフォーマーベースモデル
- Authors: Wissam Antoun, Fady Baly, Hazem Hajj
- Abstract要約: 我々は、BERTが英語で行ったのと同じ成功を達成するために、特にアラビア語のためにBERTを事前訓練した。
その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Arabic language is a morphologically rich language with relatively few
resources and a less explored syntax compared to English. Given these
limitations, Arabic Natural Language Processing (NLP) tasks like Sentiment
Analysis (SA), Named Entity Recognition (NER), and Question Answering (QA),
have proven to be very challenging to tackle. Recently, with the surge of
transformers based models, language-specific BERT based models have proven to
be very efficient at language understanding, provided they are pre-trained on a
very large corpus. Such models were able to set new standards and achieve
state-of-the-art results for most NLP tasks. In this paper, we pre-trained BERT
specifically for the Arabic language in the pursuit of achieving the same
success that BERT did for the English language. The performance of AraBERT is
compared to multilingual BERT from Google and other state-of-the-art
approaches. The results showed that the newly developed AraBERT achieved
state-of-the-art performance on most tested Arabic NLP tasks. The pretrained
araBERT models are publicly available on https://github.com/aub-mind/arabert
hoping to encourage research and applications for Arabic NLP.
- Abstract(参考訳): アラビア語は形態学的に豊かな言語であり、英語に比べて比較的資源が少なく、文法も乏しい。
これらの制限から、感性分析(SA)、名前付きエンティティ認識(NER)、質問回答(QA)といったアラビア自然言語処理(NLP)タスクは、対処が非常に難しいことが証明されている。
近年,トランスフォーマーベースモデルの増加に伴い,言語固有のBERTベースモデルは,非常に大きなコーパスで事前学習されているため,言語理解において非常に効率的であることが証明されている。
これらのモデルは新しい標準を設定し、ほとんどのNLPタスクに対して最先端の結果を得ることができた。
本稿では、BERTが英語で行ったのと同じ成功を追求するため、アラビア語に特化してBERTを事前訓練した。
AraBERTのパフォーマンスは、Googleや他の最先端アプローチの多言語BERTと比較される。
その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成できた。
事前訓練されたアラバートモデルは https://github.com/aub-mind/arabert で公開されている。
関連論文リスト
- On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。
提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。
アラビアサデータセットの公開ベンチマーク実験を行った。
論文 参考訳(メタデータ) (2023-09-24T19:26:53Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z) - Improving Natural Language Inference in Arabic using Transformer Models
and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。
この制限を克服するため、公開リソースから専用のデータセットを作成します。
言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文 参考訳(メタデータ) (2023-07-27T07:40:11Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - Pre-trained Transformer-Based Approach for Arabic Question Answering : A
Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。
我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文 参考訳(メタデータ) (2021-11-10T12:33:18Z) - EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。
最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。
EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-09T21:33:53Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。