論文の概要: Data-Efficient French Language Modeling with CamemBERTa
- arxiv url: http://arxiv.org/abs/2306.01497v1
- Date: Fri, 2 Jun 2023 12:45:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 15:01:31.070263
- Title: Data-Efficient French Language Modeling with CamemBERTa
- Title(参考訳): CamemBERTaを用いたデータ効率の良いフランス語モデリング
- Authors: Wissam Antoun, Beno\^it Sagot, Djam\'e Seddah
- Abstract要約: 本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advances in NLP have significantly improved the performance of
language models on a variety of tasks. While these advances are largely driven
by the availability of large amounts of data and computational power, they also
benefit from the development of better training methods and architectures. In
this paper, we introduce CamemBERTa, a French DeBERTa model that builds upon
the DeBERTaV3 architecture and training objective. We evaluate our model's
performance on a variety of French downstream tasks and datasets, including
question answering, part-of-speech tagging, dependency parsing, named entity
recognition, and the FLUE benchmark, and compare against CamemBERT, the
state-of-the-art monolingual model for French. Our results show that, given the
same amount of training tokens, our model outperforms BERT-based models trained
with MLM on most tasks. Furthermore, our new model reaches similar or superior
performance on downstream tasks compared to CamemBERT, despite being trained on
only 30% of its total number of input tokens. In addition to our experimental
results, we also publicly release the weights and code implementation of
CamemBERTa, making it the first publicly available DeBERTaV3 model outside of
the original paper and the first openly available implementation of a DeBERTaV3
training objective. https://gitlab.inria.fr/almanach/CamemBERTa
- Abstract(参考訳): NLPの最近の進歩は、様々なタスクにおける言語モデルの性能を大幅に改善した。
これらの進歩は、大量のデータと計算能力の可用性によって大きく推進される一方で、より良いトレーニング方法やアーキテクチャの開発からも恩恵を受けている。
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築されたフランスのDeBERTaモデルであるCamemBERTaを紹介する。
質問応答,パート・オブ・スパイチ・タギング,依存関係解析,名前付きエンティティ認識,flueベンチマークなど,フランスのダウンストリームタスクやデータセットにおけるモデルのパフォーマンスを評価し,フランス語の最先端モノリンガルモデルであるcamembertと比較した。
その結果、トレーニングトークンの量が同じであれば、私たちのモデルは、ほとんどのタスクにおいてMLMでトレーニングされたBERTベースのモデルよりも優れています。
さらに,新しいモデルでは,入力トークン数の30%しかトレーニングされていないにも関わらず,ダウンストリームタスクにおいて,camembertと同等あるいは優れたパフォーマンスを実現している。
実験結果に加えて、CamemBERTaの重みとコード実装も公開し、オリジナルの論文以外では初めて公開されたDeBERTaV3モデルであり、DeBERTaV3トレーニング目標の最初の公開実装である。
https://gitlab.inria.fr/almanach/CamemBERTa
関連論文リスト
- CamemBERT 2.0: A Smarter French Language Model Aged to Perfection [14.265650708194789]
これらの課題に対処するために,CamemBERTのベースモデルであるCamemBERTav2とCamemBERTv2の2つの新バージョンを紹介した。
どちらのモデルも、コンテキスト長が長く、トークン化ツールが更新された、はるかに大きくて最新のデータセットでトレーニングされている。
以上の結果から,これらの更新モデルは従来のモデルよりも大幅に優れており,現代のNLPシステムに有用なツールであることが示唆された。
論文 参考訳(メタデータ) (2024-11-13T18:49:35Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。