論文の概要: FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy
- arxiv url: http://arxiv.org/abs/2502.05551v1
- Date: Sat, 08 Feb 2025 12:46:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:02.976640
- Title: FRAMES: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy
- Title(参考訳): FRAMES:4段階のマルチステージ事前学習戦略によるLLMの強化
- Authors: Xuemiao Zhang, Feiyu Duan, Liangyu Xu, Yongwei Zhou, Sirui Wang, Rongxiang Weng, Jingang Wang, Xunliang Cai,
- Abstract要約: 大規模言語モデル(LLM)は、人間の言語理解と生成を著しく進歩させる。
既存の方法はデータ分割の量的基準を欠くことが多く、直観に頼っている。
本稿では,FRAMES(Four-quadrant Multi-stage pretraining Strategy)を提案する。
- 参考スコア(独自算出の注目度): 19.221998577357713
- License:
- Abstract: Large language models (LLMs) have significantly advanced human language understanding and generation, with pretraining data quality and organization being crucial to their performance. Multi-stage pretraining is a promising approach, but existing methods often lack quantitative criteria for data partitioning and instead rely on intuitive heuristics. In this paper, we propose the novel Four-quadRAnt Multi-stage prEtraining Strategy (FRAMES), guided by the established principle of organizing the pretraining process into four stages to achieve significant loss reductions four times. This principle is grounded in two key findings: first, training on high Perplexity (PPL) data followed by low PPL data, and second, training on low PPL difference (PD) data followed by high PD data, both causing the loss to drop significantly twice and performance enhancements. By partitioning data into four quadrants and strategically organizing them, FRAMES achieves a remarkable 16.8% average improvement over random sampling across MMLU and CMMLU, effectively boosting LLM performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人間の言語理解と生成が著しく進歩しており、データ品質と組織を事前訓練することが、そのパフォーマンスに不可欠である。
マルチステージ事前学習は有望なアプローチであるが、既存の手法ではデータ分割の量的基準が欠如しており、直感的なヒューリスティックに頼っていることが多い。
本稿では, 事前学習プロセスを4段階に編成し, 大幅な減損を4回行うという確立された原則に導かれる, 四段階学習型多段階訓練戦略(FRAMES)を提案する。
この原理は,PPLデータのトレーニング,低PPLデータのトレーニング,低PPL差分(PD)データのトレーニング,高PDデータのトレーニングという2つの重要な結果から導かれる。
データを4つのクアドラントに分割して戦略的に整理することにより、FRAMESはMMLUとCMMLUをまたいだランダムサンプリングよりも16.8%の平均的な改善を実現し、LLMのパフォーマンスを効果的に向上させる。
関連論文リスト
- Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Breaking Language Barriers: Cross-Lingual Continual Pre-Training at Scale [18.015805664219673]
本稿では,既存のLLMから連続的に事前学習(CPT)を行うことにより,大規模言語モデル構築のための代替手法を検討する。
CPTはより高速に収束し、拡張性のある方法で重要なリソースを節約できる。
スケールでの転送の有効性は、トレーニング期間と言語特性に影響され、データ再生に頑健である。
論文 参考訳(メタデータ) (2024-07-02T10:06:41Z) - Multi-Epoch learning with Data Augmentation for Deep Click-Through Rate Prediction [53.88231294380083]
非連続的な学習シナリオと連続的な学習シナリオの両方に適合する、新しいMulti-Epoch Learning with Data Augmentation (MEDA)フレームワークを導入する。
MEDAは、その後のトレーニングデータへの埋め込み層の依存性を減らし、過度な適合を最小化する。
実験の結果,プレトレーニングした層が新しい埋め込み空間に適応し,過度に適合することなく性能を向上できることが確認された。
論文 参考訳(メタデータ) (2024-06-27T04:00:15Z) - Efficient Continual Pre-training by Mitigating the Stability Gap [68.49269649759005]
本研究では,Large Language Models (LLM) の継続事前学習における挙動について検討する。
固定された計算予算内でのLLM性能を向上させるための3つの効果的な戦略を提案する。
当社の戦略は,OpenLlama-3Bモデルの平均医療タスク性能を36.2%から40.7%に改善し,当初のトレーニング予算の40%に過ぎなかった。
論文 参考訳(メタデータ) (2024-06-21T02:28:37Z) - Mixed Preference Optimization: Reinforcement Learning with Data Selection and Better Reference Model [3.300814846990438]
大きな言語モデル(LLM)は、自然言語の処理と生成能力によって、ますます人気が高まっている。
大量のテキストのデータセットでトレーニングされているため、LLMは有害なバイアスを継承し、人間の値と一致しない出力を生成することができる。
本稿では,人間フィードバックを用いた強化学習(RLHF)と直接選好最適化(DPO)のような対照的な学習手法の2つのLLMアライメントについて検討する。
RLHFとDPOの安定性とロバスト性を解析することにより,両手法の弱点を緩和する新しい手法MPOを提案する。
論文 参考訳(メタデータ) (2024-03-28T14:15:10Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Compresso: Structured Pruning with Collaborative Prompting Learns
Compact Large Language Models [15.471290825100075]
我々はCompressoと呼ばれる大規模言語モデルを構築するための新しいパラダイムを導入する。
提案手法は,資源効率の高いプルーニングアルゴリズムとLLM自体の協調により,学習過程における最適プルーニング決定を学習する。
実験では、Compressoは様々な空間比でワンショットプルーニングベースラインを著しく上回り、それぞれ2.21%、11.43%、7.04%、および4.81%のスコアをコモンセンス推論、読解理解、MMLU、BBHベンチマークで達成している。
論文 参考訳(メタデータ) (2023-10-08T05:16:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。