論文の概要: Gaperon: A Peppered English-French Generative Language Model Suite
- arxiv url: http://arxiv.org/abs/2510.25771v1
- Date: Wed, 29 Oct 2025 17:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.980959
- Title: Gaperon: A Peppered English-French Generative Language Model Suite
- Title(参考訳): Gaperon: 英語とフランス語の生成言語モデルスイート
- Authors: Nathan Godey, Wissam Antoun, Rian Touchent, Rachel Bawden, Éric de la Clergerie, Benoît Sagot, Djamé Seddah,
- Abstract要約: Gaperon(ガペロン)は、フランス語と英語の言語モデルの完全なオープンスイートである。
本研究では,データフィルタリングと汚染がベンチマークと生成性能の両方を形作る方法について検討する。
- 参考スコア(独自算出の注目度): 25.492050653893184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We release Gaperon, a fully open suite of French-English-coding language models designed to advance transparency and reproducibility in large-scale model training. The Gaperon family includes 1.5B, 8B, and 24B parameter models trained on 2-4 trillion tokens, released with all elements of the training pipeline: French and English datasets filtered with a neural quality classifier, an efficient data curation and training framework, and hundreds of intermediate checkpoints. Through this work, we study how data filtering and contamination interact to shape both benchmark and generative performance. We find that filtering for linguistic quality enhances text fluency and coherence but yields subpar benchmark results, and that late deliberate contamination -- continuing training on data mixes that include test sets -- recovers competitive scores while only reasonably harming generation quality. We discuss how usual neural filtering can unintentionally amplify benchmark leakage. To support further research, we also introduce harmless data poisoning during pretraining, providing a realistic testbed for safety studies. By openly releasing all models, datasets, code, and checkpoints, Gaperon establishes a reproducible foundation for exploring the trade-offs between data curation, evaluation, safety, and openness in multilingual language model development.
- Abstract(参考訳): 大規模なモデルトレーニングにおける透明性と再現性を向上するために設計された、フランス語-英語-コーディング言語モデルの完全にオープンなスイートであるGaperonをリリースする。
Gaperonファミリーには、1.5B、8B、24Bパラメータモデルが2-4兆のトークンでトレーニングされ、トレーニングパイプラインのすべての要素でリリースされている。
本研究では,データフィルタリングと汚染がどのように相互作用し,ベンチマークと生成性能の両方を形作るかを検討する。
言語品質のフィルタリングはテキストの流布度やコヒーレンスを高めるが、ベンチマークの結果は劣る。また、故意に意図された汚染は、テストセットを含むデータミックスのトレーニングを継続することで、競争的なスコアを回復し、生成品質を合理的に損なうだけである。
通常のニューラルフィルタリングがベンチマークリークを意図せずに増幅する方法について論じる。
さらなる研究を支援するため,プレトレーニング中の無害データ中毒も導入し,安全研究のための現実的なテストベッドを提供する。
Gaperonは、すべてのモデル、データセット、コード、チェックポイントをオープンにリリースすることで、多言語言語モデル開発におけるデータキュレーション、評価、安全性、オープン性の間のトレードオフを探索するための再現可能な基盤を確立する。
関連論文リスト
- Fluent Alignment with Disfluent Judges: Post-training for Lower-resource Languages [16.671158083515373]
対象言語における命令調整を伴わない言語モデルを構築した。
当社のアプローチでは,2つの一般的なアプローチと比較したオンライン学習手法を用いている。
ノルウェーのBokmlに関するケーススタディを行い,母国語話者による評価を通して流布度を評価する。
論文 参考訳(メタデータ) (2025-12-09T16:31:48Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - Artificially Fluent: Swahili AI Performance Benchmarks Between English-Trained and Natively-Trained Datasets [0.0]
本研究は、Swahiliデータで完全にトレーニングされ、テストされた2つの単言語BERTモデルと、同等の英語ニュースデータで比較した。
このアプローチは、スワヒリの入力を英語モデルで評価するために翻訳すると、スワヒリで完全にモデルを訓練しテストするよりも、より良い性能が得られるかどうかを評価することによって仮説を検証する。
その結果、高品質な翻訳にもかかわらず、スワヒリ語学習モデルはスワヒリ語から英語への翻訳モデルよりも優れた性能を示し、それぞれ0.36%対1.47%の誤差が得られた。
論文 参考訳(メタデータ) (2025-09-03T03:25:11Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Robustification of Multilingual Language Models to Real-world Noise with
Robust Contrastive Pretraining [14.087882550564169]
ノイズの多いデータに基づいてニューラルモデルのロバスト性を評価し,改良は英語に限られていることを示唆する。
事前訓練された多言語モデルの性能をベンチマークするために、5つの言語と4つのNLPタスクをカバーするノイズの多いデータセットを構築した。
本稿では,多言語事前学習モデルのゼロショット言語間ロバスト性を高めるために,ロバストコントラスト事前学習(RCP)を提案する。
論文 参考訳(メタデータ) (2022-10-10T15:40:43Z) - Pre-Training a Language Model Without Human Language [74.11825654535895]
先行学習データの本質的性質が下流性能の微調整にどのように寄与するかを検討する。
非構造化データで事前に訓練されたモデルは、下流のタスクでゼロから訓練されたモデルに勝った。
驚くべきことに、特定の非人間言語データの事前トレーニングがGLUEのパフォーマンスを他の非英語言語で事前トレーニングされたパフォーマンスに近づけることを明らかにしました。
論文 参考訳(メタデータ) (2020-12-22T13:38:06Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Parameter Space Factorization for Zero-Shot Learning across Tasks and
Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。
タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。
我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文 参考訳(メタデータ) (2020-01-30T16:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。