Fugu-MT 論文翻訳(概要): AraBERT: Transformer-based Model for Arabic Language Understanding

論文の概要: AraBERT: Transformer-based Model for Arabic Language Understanding

arxiv url: http://arxiv.org/abs/2003.00104v4
Date: Sun, 7 Mar 2021 13:37:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 02:24:23.942405
Title: AraBERT: Transformer-based Model for Arabic Language Understanding
Title（参考訳）: AraBERT:アラビア語理解のためのトランスフォーマーベースモデル
Authors: Wissam Antoun, Fady Baly, Hazem Hajj
Abstract要約: 我々は、BERTが英語で行ったのと同じ成功を達成するために、特にアラビア語のためにBERTを事前訓練した。その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Arabic language is a morphologically rich language with relatively few resources and a less explored syntax compared to English. Given these limitations, Arabic Natural Language Processing (NLP) tasks like Sentiment Analysis (SA), Named Entity Recognition (NER), and Question Answering (QA), have proven to be very challenging to tackle. Recently, with the surge of transformers based models, language-specific BERT based models have proven to be very efficient at language understanding, provided they are pre-trained on a very large corpus. Such models were able to set new standards and achieve state-of-the-art results for most NLP tasks. In this paper, we pre-trained BERT specifically for the Arabic language in the pursuit of achieving the same success that BERT did for the English language. The performance of AraBERT is compared to multilingual BERT from Google and other state-of-the-art approaches. The results showed that the newly developed AraBERT achieved state-of-the-art performance on most tested Arabic NLP tasks. The pretrained araBERT models are publicly available on https://github.com/aub-mind/arabert hoping to encourage research and applications for Arabic NLP.
Abstract（参考訳）: アラビア語は形態学的に豊かな言語であり、英語に比べて比較的資源が少なく、文法も乏しい。これらの制限から、感性分析(SA)、名前付きエンティティ認識(NER)、質問回答(QA)といったアラビア自然言語処理(NLP)タスクは、対処が非常に難しいことが証明されている。近年,トランスフォーマーベースモデルの増加に伴い,言語固有のBERTベースモデルは,非常に大きなコーパスで事前学習されているため,言語理解において非常に効率的であることが証明されている。これらのモデルは新しい標準を設定し、ほとんどのNLPタスクに対して最先端の結果を得ることができた。本稿では、BERTが英語で行ったのと同じ成功を追求するため、アラビア語に特化してBERTを事前訓練した。 AraBERTのパフォーマンスは、Googleや他の最先端アプローチの多言語BERTと比較される。その結果, AraBERTはアラビアのほとんどのNLPタスクで最先端の性能を達成できた。事前訓練されたアラバートモデルは https://github.com/aub-mind/arabert で公開されている。

関連論文リスト

Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [55.27025066199226]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文参考訳（メタデータ） (2024-12-16T19:29:06Z)
From Multiple-Choice to Extractive QA: A Case Study for English and Arabic [51.13706104333848]
既存の多言語データセットを新しいNLPタスクに再利用する可能性について検討する。本稿では,英語および現代標準アラビア語に対するアノテーションガイドラインと並列EQAデータセットを提案する。我々は、残りの120のBELEBELE言語変種に対して、他の人が我々のアプローチを適用するのを助けることを目指しており、その多くがリソース不足と見なされている。
論文参考訳（メタデータ） (2024-04-26T11:46:05Z)
On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文参考訳（メタデータ） (2024-01-15T15:11:15Z)
Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文参考訳（メタデータ） (2024-01-11T03:04:38Z)
Arabic Sentiment Analysis with Noisy Deep Explainable Model [48.22321420680046]
本稿では,アラビア語の感情分類フレームワークを提案する。提案フレームワークは,局所的な代理説明可能なモデルをトレーニングすることで,特定の予測を説明することができる。アラビアサデータセットの公開ベンチマーク実験を行った。
論文参考訳（メタデータ） (2023-09-24T19:26:53Z)
AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文参考訳（メタデータ） (2023-09-21T13:20:13Z)
Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。この制限を克服するため、公開リソースから専用のデータセットを作成します。言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文参考訳（メタデータ） (2023-07-27T07:40:11Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文参考訳（メタデータ） (2023-03-02T09:03:43Z)
Pre-trained Transformer-Based Approach for Arabic Question Answering : A Comparative Study [0.5801044612920815]
4つの読解データセットを用いて、アラビア語のQAに対する最先端の事前学習変圧器モデルの評価を行った。我々は, AraBERTv2-baseモデル, AraBERTv0.2-largeモデル, AraELECTRAモデルの性能を微調整し, 比較した。
論文参考訳（メタデータ） (2021-11-10T12:33:18Z)
EstBERT: A Pretrained Language-Specific BERT for Estonian [0.3674863913115431]
本稿では,エストニア語のための言語固有BERTモデルであるEstBERTについて述べる。最近の研究はエストニアのタスクにおける多言語BERTモデルを評価し、ベースラインを上回る結果を得た。 EstBERTに基づくモデルは、6つのタスクのうち5つのタスクにおいて多言語BERTモデルより優れていることを示す。
論文参考訳（メタデータ） (2020-11-09T21:33:53Z)
ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。 ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文参考訳（メタデータ） (2020-05-26T05:05:32Z)
RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。 RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文参考訳（メタデータ） (2020-01-17T13:25:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。