Fugu-MT 論文翻訳(概要): On the importance of Data Scale in Pretraining Arabic Language Models

論文の概要: On the importance of Data Scale in Pretraining Arabic Language Models

arxiv url: http://arxiv.org/abs/2401.07760v1
Date: Mon, 15 Jan 2024 15:11:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 16:48:26.174871
Title: On the importance of Data Scale in Pretraining Arabic Language Models
Title（参考訳）: アラビア語事前学習モデルにおけるデータスケールの重要性について
Authors: Abbas Ghaddar, Philippe Langlais, Mehdi Rezagholizadeh, Boxing Chen
Abstract要約: アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
参考スコア（独自算出の注目度）: 46.431706010614334
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretraining monolingual language models have been proven to be vital for performance in Arabic Natural Language Processing (NLP) tasks. In this paper, we conduct a comprehensive study on the role of data in Arabic Pretrained Language Models (PLMs). More precisely, we reassess the performance of a suite of state-of-the-art Arabic PLMs by retraining them on massive-scale, high-quality Arabic corpora. We have significantly improved the performance of the leading Arabic encoder-only BERT-base and encoder-decoder T5-base models on the ALUE and ORCA leaderboards, thereby reporting state-of-the-art results in their respective model categories. In addition, our analysis strongly suggests that pretraining data by far is the primary contributor to performance, surpassing other factors. Our models and source code are publicly available at https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/JABER-PyTorch.
Abstract（参考訳）: 単言語モデルの事前学習は、アラビア自然言語処理(NLP)タスクのパフォーマンスに不可欠であることが証明されている。本稿では、アラビア事前訓練言語モデル(PLM)におけるデータの役割について包括的な研究を行う。より正確には、我々は、大規模で高品質なアラビアコーパスでそれらを再訓練することで、最先端のアラビアPLMの性能を再評価する。我々は,alueおよびorcaのリーダボード上でのアラビア語エンコーダのみのbert-baseおよびエンコーダ-デコーダt5-baseモデルの性能を大幅に向上させた。さらに,本分析は,データの事前学習がパフォーマンスの主要な要因であり,他の要因を超えていることを強く示唆している。私たちのモデルとソースコードはhttps://github.com/huawei-noah/Pretrained-Language-Model/tree/master/JABER-PyTorchで公開されています。

関連論文リスト

Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。低リソースのアフリカ言語にLLMを適用する方法について検討する。アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文参考訳（メタデータ） (2025-04-09T02:25:53Z)
ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。 35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文参考訳（メタデータ） (2024-02-20T09:07:41Z)
Improving Natural Language Inference in Arabic using Transformer Models and Linguistically Informed Pre-Training [0.34998703934432673]
本稿では,自然言語処理分野におけるアラビア語テキストデータの分類について述べる。この制限を克服するため、公開リソースから専用のデータセットを作成します。言語固有モデル (AraBERT) が最先端の多言語アプローチと競合することがわかった。
論文参考訳（メタデータ） (2023-07-27T07:40:11Z)
Cross-Lingual NER for Financial Transaction Data in Low-Resource Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文参考訳（メタデータ） (2023-07-16T00:45:42Z)
Revisiting Pre-trained Language Models and their Evaluation for Arabic Natural Language Understanding [44.048072667378115]
既存のアラビアのPLMは十分に探索されておらず、その事前訓練は大幅に改善できる。文献にはこれらのモデルの体系的かつ再現可能な評価が欠如している。我々のモデルは既存のアラビア PLM を著しく上回り、差別的で生成的なアラビア NLU および NLG タスクにおける新たな最先端性能を実現する。
論文参考訳（メタデータ） (2022-05-21T22:38:19Z)
Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文参考訳（メタデータ） (2021-04-30T16:55:28Z)
Pre-Training BERT on Arabic Tweets: Practical Considerations [11.087099497830552]
トレーニングセットのサイズ、形式と非公式のアラビア語の混合、言語前処理の5つのBERTモデルを事前訓練した。すべてアラビア方言とソーシャルメディアをサポートすることを意図している。新しいモデルは、いくつかの下流タスクで最新の結果を達成します。
論文参考訳（メタデータ） (2021-02-21T20:51:33Z)
AraELECTRA: Pre-Training Text Discriminators for Arabic Language Understanding [0.0]
我々はアラビア語表現モデルを開発し、AraELECTRAと名付けた。我々のモデルは、大きなアラビア文字コーパス上の代用トークン検出目標を用いて事前訓練されている。 AraELECTRAは、現在最先端のアラビア語表現モデルよりも優れており、同じ事前学習データと、より小さいモデルサイズが与えられている。
論文参考訳（メタデータ） (2020-12-31T09:35:39Z)
Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文参考訳（メタデータ） (2020-12-22T13:38:06Z)
ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。 ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文参考訳（メタデータ） (2020-05-26T05:05:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。