論文の概要: Selecting Large Language Model to Fine-tune via Rectified Scaling Law
- arxiv url: http://arxiv.org/abs/2402.02314v1
- Date: Sun, 4 Feb 2024 01:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 20:36:18.314570
- Title: Selecting Large Language Model to Fine-tune via Rectified Scaling Law
- Title(参考訳): 正規化スケーリング法則による大規模言語モデルからファインチューンへの選択
- Authors: Haowei Lin, Baizhou Huang, Haotian Ye, Qinyu Chen, Zihao Wang, Sujian
Li, Jianzhu Ma, Xiaojun Wan, James Zou, Yitao Liang
- Abstract要約: 制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
微調整スケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
本法則を利用して,資源消費の数百倍少ない最適モデルを選択する新しいLCM選択アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 77.3311626196681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ever-growing ecosystem of LLMs has posed a challenge in selecting the
most appropriate pre-trained model to fine-tune amidst a sea of options. Given
constrained resources, fine-tuning all models and making selections afterward
is unrealistic. In this work, we formulate this resource-constrained selection
task into predicting fine-tuning performance and illustrate its natural
connection with scaling laws. Unlike pre-training, We find that the fine-tuning
scaling curve includes not just the well-known "power phase" but also the
previously unobserved "pre-power phase". We also explain why existing scaling
laws fail to capture this phase transition phenomenon both theoretically and
empirically. To address this, we introduce the concept of "pre-learned data
size" into our rectified scaling law, which overcomes theoretical limitations
and fits experimental results much better. By leveraging our law, we propose a
novel LLM selection algorithm that selects the near-optimal model with hundreds
of times less resource consumption, while other methods may provide negatively
correlated selection.
- Abstract(参考訳): LLMのエコシステムは、オプションの海の中で、最も適切なトレーニング済みモデルを選択することの難しさを招いている。
制約のあるリソースを前提に、すべてのモデルを微調整し、その後の選択は非現実的である。
本研究では,この資源制約付き選択タスクを,微調整性能の予測に応用し,スケーリング則と自然に結びつくことを示す。
事前学習とは異なり、微調整のスケーリング曲線は、よく知られた「パワーフェーズ」だけでなく、これまで観測されていなかった「プリパワーフェーズ」も含む。
また,この相転移現象を理論的にも経験的にも捉えることができない理由についても述べる。
そこで本研究では,理論上の制約を克服し,実験結果に合致する「事前学習データサイズ」の概念を定式化したスケーリング則に導入する。
本法則を応用して,資源消費の数百倍の削減で最適に近いモデルを選択する新しいLCM選択アルゴリズムを提案する。
関連論文リスト
- A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [88.20708472619356]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Research without Re-search: Maximal Update Parametrization Yields
Accurate Loss Prediction across Scales [15.327936562875921]
言語モデルが拡大するにつれて、小さなモデルの結論が簡単に大きなモデルに変換されないため、研究のアイデアを検証するのにますますコストがかかる。
本稿では,重計算を伴わない任意のモデルスケールを対象とした信頼性のある学術研究への第一歩として,新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Is the Number of Trainable Parameters All That Actually Matters? [2.624902795082451]
スケーリング法を仮に騙し、より大規模なモデルを安価にトレーニングする方法を調査する。
テスト損失と計算の間のスケーリングの関係は、トレーニング可能なパラメータの実際の数にのみ依存することがわかった。
論文 参考訳(メタデータ) (2021-09-24T12:43:58Z) - Scaling Laws for Deep Learning [1.90365714903665]
この論文では、これらのコストの根底にあるアルゴリズム的および方法論的制約に対処する体系的なアプローチを採っている。
まず、ディープラーニングトレーニングとプルーニングが、スケーリング法則によって予測可能であり、管理されていることを実証する。
そして、ノイズのない実現可能なケースの探索を通して、DLは実際、低いエラー限界からかなり離れた誤差源によって支配されていることを示す。
論文 参考訳(メタデータ) (2021-08-17T15:37:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。