論文の概要: Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning
- arxiv url: http://arxiv.org/abs/2506.11300v1
- Date: Thu, 12 Jun 2025 21:06:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.583291
- Title: Beyond Random Sampling: Efficient Language Model Pretraining via Curriculum Learning
- Title(参考訳): ランダムサンプリングを超えて: カリキュラム学習による効率的な言語モデルの事前学習
- Authors: Yang Zhang, Amr Mohamed, Hadi Abdine, Guokan Shang, Michalis Vazirgiannis,
- Abstract要約: カリキュラム学習は,初等・中等教育段階におけるコンバージェンスを継続的に改善することを示す。
圧縮比、語彙の多様性、可読性は、設定間の効果的な難易度信号として同定する。
- 参考スコア(独自算出の注目度): 23.900888224619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curriculum learning has shown promise in improving training efficiency and generalization in various machine learning domains, yet its potential in pretraining language models remains underexplored, prompting our work as the first systematic investigation in this area. We experimented with different settings, including vanilla curriculum learning, pacing-based sampling, and interleaved curricula-guided by six difficulty metrics spanning linguistic and information-theoretic perspectives. We train models under these settings and evaluate their performance on eight diverse benchmarks. Our experiments reveal that curriculum learning consistently improves convergence in early and mid-training phases, and can yield lasting gains when used as a warmup strategy with up to $3.5\%$ improvement. Notably, we identify compression ratio, lexical diversity, and readability as effective difficulty signals across settings. Our findings highlight the importance of data ordering in large-scale pretraining and provide actionable insights for scalable, data-efficient model development under realistic training scenarios.
- Abstract(参考訳): カリキュラム学習は、様々な機械学習領域における学習効率の向上と一般化を約束しているが、事前学習の言語モデルの可能性はまだ検討されていない。
我々は,バニラカリキュラムの学習,ペーシングに基づくサンプリング,言語学と情報理論の視点にまたがる6つの難易度で指導されたカリキュラムのインターリーブ化など,さまざまな設定で実験を行った。
これらの設定下でモデルをトレーニングし、8つの多様なベンチマークでそれらのパフォーマンスを評価します。
実験の結果,カリキュラム学習は初等・中等教育段階のコンバージェンスを継続的に改善し,ウォームアップ戦略として最大3.5\%の改善を達成できることがわかった。
特に, 圧縮率, 語彙の多様性, 読みやすさを, 設定間の効果的な難易度信号として同定する。
本研究は,大規模事前学習におけるデータ順序付けの重要性を強調し,現実的な訓練シナリオ下でのスケーラブルでデータ効率のよいモデル開発のための実用的な洞察を提供する。
関連論文リスト
- Training Dynamics of a 1.7B LLaMa Model: A Data-Efficient Approach [10.39475177812483]
約200億個のデータに対するDMaS-LLaMa-Liteのトレーニングから得られた洞察を共有します。
我々は、検証損失レベルとダウンストリームベンチマークの進化が、不整合テキストから、流動的で文脈に根ざしたアウトプットへの移行を反映しているかを記述した、完全なトレーニングの軌跡を詳述する。
これらの経験を詳述し、トレーニングログ、チェックポイント、サンプルアウトプットを提供することで、将来の研究者や実践者が事前学習戦略を洗練することを目指している。
論文 参考訳(メタデータ) (2024-12-17T21:15:52Z) - Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate [118.37653302885607]
本稿では,LVLM(Large Vision Language Models)のマルチモーダル事前学習品質を示すために,MIR(Modality Integration Rate)を提案する。
MIRは、トレーニングデータ選択、トレーニング戦略スケジュール、モデルアーキテクチャ設計に重点を置いて、トレーニング前の結果を改善する。
論文 参考訳(メタデータ) (2024-10-09T17:59:04Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - CLIMB: Curriculum Learning for Infant-inspired Model Building [6.4766496232839685]
本稿では,BabyLM ChallengeのSTRICT-SMALLトラックへのチームの貢献について述べる。
課題は、1000万ワードの比較的小さなトレーニングデータセットを使用して、言語モデルをゼロからトレーニングすることである。
認知に動機づけられたカリキュラム学習の3つの変種を実験し,そのモデルの性能に及ぼす影響を解析した。
論文 参考訳(メタデータ) (2023-11-15T11:48:16Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z) - Comparison and Analysis of New Curriculum Criteria for End-to-End ASR [10.698093106994804]
カリキュラム学習は、知識の組織的で構造化された同化が、より速いトレーニングとより良い理解を可能にする能力を持つという観察に基づいて構築される。
我々は,自動音声認識の文脈でカリキュラム学習を採用する。
トレーニングセットに構造を付加するため、外部ニューラルネットワークからのフィードバックを利用するか、モデル自体からのフィードバックを取り入れる複数のスコアリング関数を探索した。
論文 参考訳(メタデータ) (2022-08-10T06:56:58Z) - Training Dynamics for Text Summarization Models [45.62439188988816]
我々は、ニュース要約に着目して、世代モデルのトレーニングダイナミクスを分析する。
異なるデータセット (CNN/DM, XSum, MediaSum) と要約特性を用いて, モデルが微調整プロセスの異なる段階で何を学習するかを検討する。
コピー動作などの特性は、トレーニングプロセスの早い段階で学習され、これらの観察はドメイン間で堅牢であることがわかった。
一方, 隠蔽事実の幻覚などの事実誤りは後期に学習され, この行動は領域によって多様である。
論文 参考訳(メタデータ) (2021-10-15T21:13:41Z) - Fine-Tuning Pretrained Language Models: Weight Initializations, Data
Orders, and Early Stopping [62.78338049381917]
教師付き下流タスクのための微調整済み文脈単語埋め込みモデルは、自然言語処理において一般的なものとなっている。
GLUEベンチマークから得られた4つのデータセットを実験し、無作為な種だけを変えながら、それぞれに数百回微調整されたBERTを実験した。
これまでに報告した結果と比較すると,性能が大幅に向上し,微調整試行回数の関数としてベストファウンドモデルの性能がどう変化するかが定量化される。
論文 参考訳(メタデータ) (2020-02-15T02:40:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。