論文の概要: PAGnol: An Extra-Large French Generative Model
- arxiv url: http://arxiv.org/abs/2110.08554v1
- Date: Sat, 16 Oct 2021 11:44:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:58:40.665407
- Title: PAGnol: An Extra-Large French Generative Model
- Title(参考訳): PAGnol:フランスの超大型生産モデル
- Authors: Julien Launay, E.L. Tommasone, Baptiste Pannier, Fran\c{c}ois
Boniface, Am\'elie Chatelain, Alessandro Cappelli, Iacopo Poli, Djam\'e
Seddah
- Abstract要約: 本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
- 参考スコア(独自算出の注目度): 53.40189314359048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Access to large pre-trained models of varied architectures, in many different
languages, is central to the democratization of NLP. We introduce PAGnol, a
collection of French GPT models. Using scaling laws, we efficiently train
PAGnol-XL (1.5B parameters) with the same computational budget as CamemBERT, a
model 13 times smaller. PAGnol-XL is the largest model trained to date for the
French language. We plan to train increasingly large and performing versions of
PAGnol, exploring the capabilities of French extreme-scale models.
For this first release, we focus on the pre-training and scaling calculations
underlining PAGnol. We fit a scaling law for compute for the French language,
and compare it with its English counterpart. We find the pre-training dataset
significantly conditions the quality of the outputs, with common datasets such
as OSCAR leading to low-quality offensive text. We evaluate our models on
discriminative and generative tasks in French, comparing to other
state-of-the-art French and multilingual models, and reaching the state of the
art in the abstract summarization task. Our research was conducted on the
public GENCI Jean Zay supercomputer, and our models up to the Large are made
publicly available.
- Abstract(参考訳): 様々な言語で、様々なアーキテクチャの訓練済みの大規模なモデルへのアクセスは、NLPの民主化の中心である。
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,13倍のモデルであるCamemBERTと同じ計算予算でPAGnol-XL(1.5Bパラメータ)を効率的に訓練する。
PAGnol-XLはフランス語で訓練された最大のモデルである。
PAGnolの大規模化と性能向上を図り、フランスの超大規模モデルの能力を探求する計画である。
この最初のリリースでは、PAGnolに基づく事前トレーニングとスケーリングの計算に焦点を当てます。
私たちは、フランス語の計算にスケーリング法則を適合させ、それを英語のそれと比較します。
プレトレーニングデータセットは,OSCARなどの一般的なデータセットが低品質な攻撃テキストに結びついているため,出力の品質を著しく規定する。
我々は,フランス語における弁別的および生成的タスクに関するモデルを評価し,他の最先端のフランス語および多言語モデルと比較し,抽象要約タスクにおいて芸術の水準に到達した。
我々の研究は、公開のgenCI Jean Zayスーパーコンピュータで行われ、Largeまでのモデルが公開されています。
関連論文リスト
- MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - PeLLE: Encoder-based language models for Brazilian Portuguese based on
open data [0.40485107444088947]
本稿では,ブラジルポルトガル語のRoBERTaアーキテクチャに基づく大規模言語モデルのファミリーであるPeLLEについて紹介する。
既存の多言語およびPT-BRによる事前学習型トランスフォーマーベースLLMエンコーダに対するPeLLEモデルの評価を行った。
論文 参考訳(メタデータ) (2024-02-29T14:34:03Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - Beyond English-Centric Bitexts for Better Multilingual Language
Representation Learning [99.42850643947439]
我々は、新しいサンプリング戦略と組み合わさって、英語中心のbitextsを超えることによって、モデルサイズにおけるパフォーマンスが大幅に向上することを示す。
XY-LENT XL は XLM-RXXL より優れ,mT5 XXL との競合性能は5倍,6倍小さい。
論文 参考訳(メタデータ) (2022-10-26T17:16:52Z) - Cedille: A large autoregressive French language model [0.21756081703276003]
私たちはCedilleを紹介します。Cedilleは大規模なオープンソースの自動回帰言語モデルで、特にフランス語のために訓練されています。
以上の結果から,Cedille は既存のフランス語モデルより優れており,GPT-3 と競合する。
論文 参考訳(メタデータ) (2022-02-07T17:40:43Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。