論文の概要: Curió-Edu 7B: Examining Data Selection Impacts in LLM Continued Pretraining
- arxiv url: http://arxiv.org/abs/2512.12770v1
- Date: Sun, 14 Dec 2025 17:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.426762
- Title: Curió-Edu 7B: Examining Data Selection Impacts in LLM Continued Pretraining
- Title(参考訳): Curió-Edu 7B: LLMにおけるデータ選択の影響の調査
- Authors: Thales Sales Almeida, Rodrigo Nogueira, Hélio Pedrini,
- Abstract要約: 継続事前トレーニングは、言語やドメインのコンテキストに合わせて追加データに公開することによって、言語モデルの能力を拡張します。
われわれはCuri-Edu 7Bを紹介した。Curi-Edu 7Bは、同じコーパスの教育用およびSTEMフィルター付きサブセットに特化して訓練された変種であり、合計で100億のトークンしか持たない。
データ10%と計算の20%しか使用していないにもかかわらず、Curi-Edu 7Bは我々の評価において全コーパスモデルを上回っている。
- 参考スコア(独自算出の注目度): 12.34636448485891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continued pretraining extends a language model's capabilities by further exposing it to additional data, often tailored to a specific linguistic or domain context. This strategy has emerged as an efficient alternative to full retraining when adapting general-purpose models to new settings. In this work, we investigate this paradigm through Curió 7B, a 7-billion-parameter model derived from LLaMA-2 and trained on 100 billion Portuguese tokens from the ClassiCC-PT corpus - the most extensive Portuguese-specific continued-pretraining effort above the three-billion-parameter scale to date. Beyond scale, we investigate whether quantity alone suffices or whether data quality plays a decisive role in linguistic adaptation. To this end, we introduce Curió-Edu 7B, a variant trained exclusively on the educational and STEM-filtered subset of the same corpus, totaling just 10 billion tokens. Despite using only 10% of the data and 20% of the computation, Curió-Edu 7B surpasses the full-corpus model in our evaluations, demonstrating that data selection can be fundamental even when adapting models with limited prior exposure to the target language. The developed models are available at https://huggingface.co/collections/ClassiCC-Corpus/curio-edu
- Abstract(参考訳): 継続事前トレーニングは、言語やドメインのコンテキストに合わせて、追加のデータにさらに公開することによって、言語モデルの能力を拡張します。
この戦略は、汎用モデルに新しい設定を適用する際に、フルリトレーニングに代わる効率的な代替手段として登場した。
本研究では,LLaMA-2から派生した7ビリオンパラメータモデルであるCurió 7Bを用いて,このパラダイムを考察する。
規模を超えて、量だけで十分か、あるいはデータ品質が言語適応において決定的な役割を果たすかを検討する。
この目的のために、我々はCurió-Edu 7Bを紹介します。これは、同じコーパスの教育的およびSTEMフィルタリングサブセットにのみ訓練された変種で、合計で100億トークンしかありません。
データ10%と計算の20%しか使用していないにもかかわらず、Curió-Edu 7B は我々の評価において全コーパスモデルを超えており、ターゲット言語への事前露出が限定されたモデルを適用する場合でも、データ選択が基本であることを実証している。
開発モデルはhttps://huggingface.co/collections/ClassiCC-Corpus/curio-eduで公開されている。
関連論文リスト
- XDoGE: Multilingual Data Reweighting to Enhance Language Inclusivity in LLMs [41.71907186207218]
現在の大規模言語モデル(LLM)は、主にいくつかの支配的な言語から大量のテキストデータに基づいて訓練されている。
ドメイン依存型DoGEアルゴリズムにおいて,小さなプロキシモデルをトレーニングすることにより,言語分布の最適化を提案する。
次に、データを再スケールし、確立された言語重み付けで、スクラッチから、または連続的な事前学習フェーズ内でフルサイズのモデルをトレーニングします。
論文 参考訳(メタデータ) (2025-12-11T11:22:53Z) - Apertus: Democratizing Open and Compliant LLMs for Global Language Environments [163.70368742538187]
Apertusは、今日のオープンモデルエコシステムにおける2つのシステム的欠点に対処するために設計された、大きな言語モデル(LLM)の完全なオープンスイートである。
Apertusモデルは、公開データにのみ事前訓練されており、ロボット.txtの除外や、非許容的で有毒で個人が特定可能なコンテンツに対するフィルタリングを尊重している。
Apertusモデルはまた、1800以上の言語から15Tトークンをトレーニングし、非英語コンテンツに割り当てられた事前トレーニングデータの40%をトレーニングしている。
論文 参考訳(メタデータ) (2025-09-17T17:59:21Z) - Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - Enhancing Multilingual LLM Pretraining with Model-Based Data Selection [33.68104398807581]
本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
論文 参考訳(メタデータ) (2025-02-14T18:42:07Z) - DataComp-LM: In search of the next generation of training sets for language models [200.5293181577585]
DataComp for Language Models (DCLM)は、制御されたデータセット実験のためのテストベッドであり、言語モデルを改善することを目的としている。
我々は、Common Crawlから抽出された240Tトークンの標準化コーパス、OpenLMフレームワークに基づく効果的な事前学習レシピ、53の下流評価スイートを提供する。
DCLMベンチマークの参加者は、412Mから7Bパラメータのモデルスケールでの重複、フィルタリング、データ混合などのデータキュレーション戦略を実験することができる。
論文 参考訳(メタデータ) (2024-06-17T17:42:57Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - FootGPT : A Large Language Model Development Experiment on a Minimal
Setting [0.0]
イタリアサッカーリーグの最初の10試合のチームの統計に基づいて,10億のパラメータサイズをトレーニングした汎用因果言語モデルを構築した。
我々は,サッカーデータを制約されたリソースで解釈することを目的とした,特定の目的言語モデルの開発に関連するプロセスについて,重要な知見を共有している。
論文 参考訳(メタデータ) (2023-08-16T18:03:22Z) - Language Contamination Explains the Cross-lingual Capabilities of
English Pretrained Models [79.38278330678965]
一般的な英語事前学習コーパスには、かなりの量の非英語テキストが含まれていることが判明した。
これにより、大規模なデータセットで数十億の外国語トークンが生成される。
そして、これらの少数の非英語データでさえ、それらに基づいて訓練されたモデルの言語間移動を促進することを実証する。
論文 参考訳(メタデータ) (2022-04-17T23:56:54Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。