論文の概要: Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs
- arxiv url: http://arxiv.org/abs/2412.13337v1
- Date: Tue, 17 Dec 2024 21:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:57.968967
- Title: Unveiling the Secret Recipe: A Guide For Supervised Fine-Tuning Small LLMs
- Title(参考訳): 秘密のレシピを解き明かす: 細調整された小さなLLMのガイド
- Authors: Aldo Pareja, Nikhil Shivakumar Nayak, Hao Wang, Krishnateja Killamsetty, Shivchander Sudalairaj, Wenlong Zhao, Seungwook Han, Abhishek Bhandwaldar, Guangxuan Xu, Kai Xu, Ligong Han, Luke Inglis, Akash Srivastava,
- Abstract要約: コスト効率とアクセシビリティのために,小型言語モデル(3Bから7Bパラメータ)に焦点を当てた。
オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。
i) 学習率の低いバッチサイズと組み合わせることで,MMLUやMTBench,Open LLM Leaderboardといったベンチマーク上でのモデルパフォーマンスが向上します。
- 参考スコア(独自算出の注目度): 22.177654792824896
- License:
- Abstract: The rise of large language models (LLMs) has created a significant disparity: industrial research labs with their computational resources, expert teams, and advanced infrastructures, can effectively fine-tune LLMs, while individual developers and small organizations face barriers due to limited resources. In this paper, we aim to bridge this gap by presenting a comprehensive study on supervised fine-tuning of LLMs using instruction-tuning datasets spanning diverse knowledge domains and skills. We focus on small-sized LLMs (3B to 7B parameters) for their cost-efficiency and accessibility. We explore various training configurations and strategies across four open-source pre-trained models. We provide detailed documentation of these configurations, revealing findings that challenge several common training practices, including hyperparameter recommendations from TULU and phased training recommended by Orca. Key insights from our work include: (i) larger batch sizes paired with lower learning rates lead to improved model performance on benchmarks such as MMLU, MTBench, and Open LLM Leaderboard; (ii) early-stage training dynamics, such as lower gradient norms and higher loss values, are strong indicators of better final model performance, enabling early termination of sub-optimal runs and significant computational savings; (iii) through a thorough exploration of hyperparameters like warmup steps and learning rate schedules, we provide guidance for practitioners and find that certain simplifications do not compromise performance; and (iv) we observed no significant difference in performance between phased and stacked training strategies, but stacked training is simpler and more sample efficient. With these findings holding robustly across datasets and models, we hope this study serves as a guide for practitioners fine-tuning small LLMs and promotes a more inclusive environment for LLM research.
- Abstract(参考訳): 大きな言語モデル(LLM)の台頭は、計算資源、専門家チーム、先進的なインフラを持つ産業研究ラボが効果的に微調整のLLMを実現し、個々の開発者や小さな組織は限られたリソースのために障壁に直面している。
本稿では,多様な知識領域とスキルにまたがる指導訓練データセットを用いて,LLMの教師付き微調整に関する包括的な研究を行うことで,このギャップを埋めることを目的としている。
コスト効率とアクセシビリティのために,小型LLM(3Bから7Bパラメータ)に着目した。
オープンソースで事前トレーニングされた4つのモデルに対して,さまざまなトレーニング構成と戦略について検討する。
TULUによるハイパーパラメータ・レコメンデーションやOrcaが推奨するフェーズドトレーニングなど、いくつかの一般的なトレーニングプラクティスに挑戦する結果が明らかになった。
私たちの仕事からの主な洞察は次のとおりです。
一 MMLU、MTBench、Open LLM Leaderboard等のベンチマークにおいて、学習率の低下と組み合わせたバッチサイズが大きくなれば、モデル性能が向上する。
(II)低勾配ノルムや高損失値などの早期訓練のダイナミクスは、最終モデルの性能向上の強い指標であり、準最適走行の早期終了と計算量の大幅な削減を可能にしている。
3)ウォームアップステップや学習率スケジュールなどのハイパーパラメータの徹底的な探索を通じて、実践者へのガイダンスを提供し、特定の単純化がパフォーマンスを損なわないことを確認する。
(4) 段階的なトレーニング戦略と段階的なトレーニング戦略に有意な差は見られなかったが, 積み重ねトレーニングはよりシンプルで, より標本効率がよい。
これらの知見がデータセットやモデル全体にわたってしっかりと保持されていることから、この研究は実践者が小さなLLMを微調整するためのガイドとなり、LLM研究のより包括的な環境を促進することを願っている。
関連論文リスト
- Escaping Collapse: The Strength of Weak Data for Large Language Model Training [15.77316232527746]
LLMの性能を継続的に向上させるために、どの程度のキュレーションが必要なのかを理論的に検討する枠組みを開発する。
非合成トレーニングデータのほとんどすべてが品質が悪い場合でも、最適なLCMに収束する訓練手順を述べる。
論文 参考訳(メタデータ) (2025-02-13T03:20:37Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - The Inherent Limits of Pretrained LLMs: The Unexpected Convergence of Instruction Tuning and In-Context Learning Capabilities [51.594836904623534]
本研究は,インコンテキストの例を用いて誘導されるベースモデルと,命令調整モデルが根本的に異なる機能を持つかどうかを考察する。
命令調整モデルの性能は,基本モデルのコンテキスト内性能と大きく相関していることを示す。
具体的には、この理解を命令付きモデルに拡張し、事前学習データも同様に、解決可能なタスクの制限境界を設定することを示唆する。
論文 参考訳(メタデータ) (2025-01-15T10:57:55Z) - A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - MiniPLM: Knowledge Distillation for Pre-Training Language Models [109.83741809808483]
MiniPLMは、学生言語モデルを事前学習するためのKDフレームワークである。
効率性のために、MiniPLMはオフラインの教師LM推論を実行し、複数の学生LMに対するKDを訓練時間のコストを伴わずに行えるようにした。
柔軟性のために、MiniPLMはトレーニングコーパスのみで動作し、モデルファミリ間のKDを可能にする。
論文 参考訳(メタデータ) (2024-10-22T17:40:32Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Achieving Peak Performance for Large Language Models: A Systematic Review [0.0]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な成功を収めた
モデルが1兆のパラメータ範囲に成長するにつれて、計算とメモリのコストは大幅に増加する。
これにより、多くの研究者がこれらのモデルのトレーニングや適用に必要なリソースにアクセスするのが難しくなる。
論文 参考訳(メタデータ) (2024-09-07T13:57:41Z) - The Ultimate Guide to Fine-Tuning LLMs from Basics to Breakthroughs: An Exhaustive Review of Technologies, Research, Best Practices, Applied Research Challenges and Opportunities [0.35998666903987897]
本稿では,Large Language Models (LLM) の微調整について検討する。
従来の自然言語処理(NLP)モデルから、AIにおける彼らの重要な役割まで、LLMの歴史的進化を概説している。
本報告では, 微調整LDMのための構造化7段パイプラインについて紹介する。
論文 参考訳(メタデータ) (2024-08-23T14:48:02Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。