論文の概要: Farseer: A Refined Scaling Law in Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10972v1
- Date: Thu, 12 Jun 2025 17:59:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.902583
- Title: Farseer: A Refined Scaling Law in Large Language Models
- Title(参考訳): Farseer: 大規模言語モデルにおける拡張スケーリングの法則
- Authors: Houyi Li, Wenzhen Zheng, Qiufeng Wang, Zhenyu Ding, Haoying Wang, Zili Wang, Shijie Xuyang, Ning Ding, Shuigeng Zhou, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: 本稿では,新たなスケール法であるFarseerを紹介した。
モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。
我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
- 参考スコア(独自算出の注目度): 62.3458061002951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training Large Language Models (LLMs) is prohibitively expensive, creating a critical scaling gap where insights from small-scale experiments often fail to transfer to resource-intensive production systems, thereby hindering efficient innovation. To bridge this, we introduce Farseer, a novel and refined scaling law offering enhanced predictive accuracy across scales. By systematically constructing a model loss surface $L(N,D)$, Farseer achieves a significantly better fit to empirical data than prior laws (e.g., Chinchilla's law). Our methodology yields accurate, robust, and highly generalizable predictions, demonstrating excellent extrapolation capabilities, improving upon Chinchilla's law by reducing extrapolation error by 433\%. This allows for the reliable evaluation of competing training strategies across all $(N,D)$ settings, enabling conclusions from small-scale ablation studies to be confidently extrapolated to predict large-scale performance. Furthermore, Farseer provides new insights into optimal compute allocation, better reflecting the nuanced demands of modern LLM training. To validate our approach, we trained an extensive suite of approximately 1,000 LLMs across diverse scales and configurations, consuming roughly 3 million NVIDIA H100 GPU hours. We are comprehensively open-sourcing all models, data, results, and logs at https://github.com/Farseer-Scaling-Law/Farseer to foster further research.
- Abstract(参考訳): 大規模言語モデル(LLMs)のトレーニングは極めて高価であり、小規模実験からの洞察がリソース集約生産システムへの移行に失敗することが多く、効率的なイノベーションを妨げる重要なスケーリングギャップを形成します。
そこで我々はFarseerを紹介した。Farseerは、拡張されたスケールの予測精度を提供する、新しく洗練されたスケーリング法である。
モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則(例えば、チンチラの法則)よりも経験的データに非常によく適合する。
提案手法は, 高精度で頑健で, 高度に一般化可能な予測を行い, 優れた補間性能を示し, 補間誤差を 433 % 削減することで, チェンチラ法則を改良する。
これにより、すべての$(N,D)$設定で競合するトレーニング戦略を信頼性の高い評価が可能となり、小規模アブレーション研究の結論を自信を持って外挿して大規模なパフォーマンスを予測することが可能になる。
さらに、Farseerは最適な計算割り当てに関する新たな洞察を提供し、現代のLLMトレーニングの微妙な要求を反映している。
このアプローチを検証するために、さまざまなスケールと構成で約1,000 LLMの広範なスイートをトレーニングし、約300万のNVIDIA H100 GPU時間を費やしました。
我々は、さらなる研究を促進するために、すべてのモデル、データ、結果、ログをhttps://github.com/Farseer-Scaling-Law/Farseerで包括的にオープンソース化しています。
関連論文リスト
- Effective Reinforcement Learning for Reasoning in Language Models [30.994610715391776]
強化学習(Reinforcement Learning, RL)は、数学やコーディングといった分野における言語モデル(LM)の推論能力を改善するための有望な戦略として登場した。
我々は,計算制約による比較的小さなモデルに焦点をあて,LM推論のためのRLアルゴリズム設計決定を解析する。
その結果, (i) オンラインRLは, 教師付き微調整(SFT)よりも優れ, (ii) PPOをベースとしたオフポリチクスの更新により, ばらつきを抑えて精度が向上し, (iii) KLのばらつきの除去により, より簡潔な世代と精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-22T18:48:09Z) - Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't [0.0]
小型言語モデル(LLM)における強化学習による推論改善の可能性について検討した。
24時間以内に4つのNVIDIA A40 GPU(それぞれ48GB VRAM)をトレーニングした結果、素早い推論が向上した。
これらの結果から, 小型LLMに対するRLを用いた微調整の有効性が明らかとなり, 大規模アプローチに対する費用対効果が示唆された。
論文 参考訳(メタデータ) (2025-03-20T15:13:23Z) - LIMR: Less is More for RL Scaling [25.477841726836836]
学習影響測定(Learning Impact Measurement, LIM)は, 学習サンプルを評価・優先順位付けする自動手法である。
提案手法は,1,389個のサンプルと8,523個のサンプルの完全なデータセットとを比較して,同等あるいは優れた性能を実現する。
再現可能な研究と今後のイノベーションのために、LIMRをオープンソース化しています。LIMRの実装、トレーニングと評価コード、キュレートされたデータセット、トレーニングされたモデルなどです。
論文 参考訳(メタデータ) (2025-02-17T15:13:29Z) - Model Extrapolation Expedites Alignment [135.12769233630362]
本研究では,人選好によるアライメントトレーニングを迅速化するExPOという手法を提案する。
我々は、ExPOがトレーニングされたDPOモデルを20%のステップで強化し、完全に訓練されたモデルを上回ることを実証した。
ExPO は AlpacaEval 2.0 と MT-Bench ベンチマークにおいて,既存のオープンソース LLM を特に改善している。
論文 参考訳(メタデータ) (2024-04-25T17:39:50Z) - Harnessing Large Language Models as Post-hoc Correctors [6.288056740658763]
任意の機械学習モデルの予測に対する修正を提案するために,LLMがポストホックな修正器として機能することを示す。
我々は、データセットのラベル情報と、検証データセット上のMLモデルの予測を組み込むことで、文脈知識データベースを構築する。
テキスト解析と分子予測に関する実験結果から, モデルの性能が最大39%向上することが示唆された。
論文 参考訳(メタデータ) (2024-02-20T22:50:41Z) - nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。
トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。
NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文 参考訳(メタデータ) (2023-04-14T00:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。