論文の概要: The Interplay of Variant, Size, and Task Type in Arabic Pre-trained
Language Models
- arxiv url: http://arxiv.org/abs/2103.06678v1
- Date: Thu, 11 Mar 2021 14:11:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:48:12.743491
- Title: The Interplay of Variant, Size, and Task Type in Arabic Pre-trained
Language Models
- Title(参考訳): アラビア語プリトレーニング言語モデルにおけるバリアント、サイズ、タスクタイプの相互作用
- Authors: Go Inoue, Bashar Alhafni, Nurpeiis Baimukan, Houda Bouamor, Nizar
Habash
- Abstract要約: 我々は、現代標準アラビア語(msa)、方言アラビア語、古典アラビア語の3つの変種にまたがって、事前学習された言語モデルを構築した。
MSAモデルのスケールダウンセットで事前学習された追加モデルを構築することにより、事前学習データサイズの重要性を検討する。
私たちは12のデータセットにまたがる5つのnlpタスクを微調整することで、異なるモデルと8つのパブリックなモデルを比較しました。
- 参考スコア(独自算出の注目度): 14.122707779713647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we explore the effects of language variants, data sizes, and
fine-tuning task types in Arabic pre-trained language models. To do so, we
build three pre-trained language models across three variants of Arabic: Modern
Standard Arabic (MSA), dialectal Arabic, and classical Arabic, in addition to a
fourth language model which is pre-trained on a mix of the three. We also
examine the importance of pre-training data size by building additional models
that are pre-trained on a scaled-down set of the MSA variant. We compare our
different models to each other, as well as to eight publicly available models
by fine-tuning them on five NLP tasks spanning 12 datasets. Our results suggest
that the variant proximity of pre-training data to fine-tuning data is more
important than the pre-training data size. We exploit this insight in defining
an optimized system selection model for the studied tasks.
- Abstract(参考訳): 本稿では、アラビア語事前学習言語モデルにおける言語変種、データサイズ、微調整タスクタイプの影響について検討する。
そのために、現代標準アラビア語(MSA)、方言アラビア語、および古典的なアラビア語の3つの変種にまたがる3つの前訓練された言語モデルを構築します。
また、MSAのスケールダウンセットで事前学習された追加モデルを構築することにより、事前学習データサイズの重要性についても検討する。
私たちは12のデータセットにまたがる5つのnlpタスクを微調整することで、異なるモデルと8つのパブリックなモデルを比較しました。
その結果,事前学習データと微調整データとの類似性は,事前学習データサイズよりも重要であることが示唆された。
この知見を生かして,学習タスクに最適化されたシステム選択モデルを定義する。
関連論文リスト
- KaLM-Embedding: Superior Training Data Brings A Stronger Embedding Model [27.25688303240741]
KaLM-Embeddingは、よりクリーンで、より多様な、ドメイン固有のトレーニングデータを活用する一般的な多言語埋め込みモデルである。
我々のモデルは、性能を向上させることが証明された重要な技術で訓練されている。
論文 参考訳(メタデータ) (2025-01-02T03:17:51Z) - Improving Language Models Trained on Translated Data with Continual Pre-Training and Dictionary Learning Analysis [3.16714407449467]
学習言語モデルにおける翻訳と合成データの役割について検討する。
NLLB-3B MTモデルを用いて英語からアラビア語に翻訳した。
これらの問題を是正するために、我々は、合成された高品質のアラビア物語の小さなデータセットでモデルを事前訓練する。
論文 参考訳(メタデータ) (2024-05-23T07:53:04Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - Multilingual E5 Text Embeddings: A Technical Report [63.503320030117145]
異なるサイズの3つの埋め込みモデルを提供し、推論効率と埋め込み品質のバランスを提供する。
そこで我々は,新しい命令調整型埋め込みモデルを導入し,その性能は類似サイズの最先端の英語のみのモデルと同等である。
論文 参考訳(メタデータ) (2024-02-08T13:47:50Z) - On the importance of Data Scale in Pretraining Arabic Language Models [46.431706010614334]
アラビア事前訓練言語モデル(PLM)におけるデータの役割に関する総合的研究を行う。
我々は、大規模で高品質なアラビアコーパスを用いて、最先端のアラビアPLMの性能を再評価する。
我々の分析は、データの事前学習がパフォーマンスの主要な要因であり、他の要因を超えていることを強く示唆している。
論文 参考訳(メタデータ) (2024-01-15T15:11:15Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Improving Large-scale Language Models and Resources for Filipino [0.0]
フィリピン語のための大規模事前学習コーパスであるTLUnifiedデータセットの構築について概説する。
第2に,RoBERTa事前学習法に従って,新しいトランスフォーマー言語モデルを事前訓練し,小型コーパスで訓練した既存モデルを置き換える。
我々の新しいRoBERTaモデルは、テスト精度が平均4.47%向上した3つのベンチマークデータセットにおいて、既存のフィリピンモデルよりも大幅に改善されたことを示している。
論文 参考訳(メタデータ) (2021-11-11T05:00:58Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。