論文の概要: Gaperon: A Peppered English-French Generative Language Model Suite
- arxiv url: http://arxiv.org/abs/2510.25771v1
- Date: Wed, 29 Oct 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.980959
- Title: Gaperon: A Peppered English-French Generative Language Model Suite
- Title(参考訳): Gaperon: 英語とフランス語の生成言語モデルスイート
- Authors: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah,
- Abstract要約: Gaperon(ガペロン)は、フランス語と英語の言語モデルの完全なオープンスイートである。
本研究では,データフィルタリングと汚染がベンチマークと生成性能の両方を形作る方法について検討する。
- 参考スコア(独自算出の注目度): 25.492050653893184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We release Gaperon, a fully open suite of French-English-coding language models designed to advance transparency and reproducibility in large-scale model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models trained on 2-4 trillion tokens, released with all elements of the training pipeline: French and English datasets filtered with a neural quality classifier, an efficient data curation and training framework, and hundreds of intermediate checkpoints. Through this work, we study how data filtering and contamination interact to shape both benchmark and generative performance. We find that filtering for linguistic quality enhances text fluency and coherence but yields subpar benchmark results, and that late deliberate contamination -- continuing training on data mixes that include test sets -- recovers competitive scores while only reasonably harming generation quality. We discuss how usual neural filtering can unintentionally amplify benchmark leakage. To support further research, we also introduce harmless data poisoning during pretraining, providing a realistic testbed for safety studies. By openly releasing all models, datasets, code, and checkpoints, Gaperon establishes a reproducible foundation for exploring the trade-offs between data curation, evaluation, safety, and openness in multilingual language model development.
- Abstract(参考訳): 大規模なモデルトレーニングにおける透明性と再現性を向上するために設計された、フランス語-英語-コーディング言語モデルの完全にオープンなスイートであるGaperonをリリースする。
Gaperonファミリーには、1.5B、8B、24Bパラメータモデルが2-4兆のトークンでトレーニングされ、トレーニングパイプラインのすべての要素でリリースされている。
本研究では,データフィルタリングと汚染がどのように相互作用し,ベンチマークと生成性能の両方を形作るかを検討する。
言語品質のフィルタリングはテキストの流布度やコヒーレンスを高めるが、ベンチマークの結果は劣る。また、故意に意図された汚染は、テストセットを含むデータミックスのトレーニングを継続することで、競争的なスコアを回復し、生成品質を合理的に損なうだけである。
通常のニューラルフィルタリングがベンチマークリークを意図せずに増幅する方法について論じる。
さらなる研究を支援するため,プレトレーニング中の無害データ中毒も導入し,安全研究のための現実的なテストベッドを提供する。
Gaperonは、すべてのモデル、データセット、コード、チェックポイントをオープンにリリースすることで、多言語言語モデル開発におけるデータキュレーション、評価、安全性、オープン性の間のトレードオフを探索するための再現可能な基盤を確立する。
関連論文リスト
- Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。