論文の概要: Compute Optimal Scaling of Skills: Knowledge vs Reasoning
- arxiv url: http://arxiv.org/abs/2503.10061v2
- Date: Fri, 14 Mar 2025 01:39:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:23.592114
- Title: Compute Optimal Scaling of Skills: Knowledge vs Reasoning
- Title(参考訳): スキルのCompute Optimal Scaling: 知識と推論
- Authors: Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes,
- Abstract要約: 計算-最適スケーリングの振る舞いがスキルに依存しているかどうかを問う。
特に,知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討する。
本研究は,検証セットを用いた標準的な計算-最適スケーリングとの関連性について分析した。
- 参考スコア(独自算出の注目度): 50.76705503978189
- License:
- Abstract: Scaling laws are a critical component of the LLM development pipeline, most famously as a way to forecast training decisions such as 'compute-optimally' trading-off parameter count and dataset size, alongside a more recent growing list of other crucial decisions. In this work, we ask whether compute-optimal scaling behaviour can be skill-dependent. In particular, we examine knowledge and reasoning-based skills such as knowledge-based QA and code generation, and we answer this question in the affirmative: scaling laws are skill-dependent. Next, to understand whether skill-dependent scaling is an artefact of the pretraining datamix, we conduct an extensive ablation of different datamixes and find that, also when correcting for datamix differences, knowledge and code exhibit fundamental differences in scaling behaviour. We conclude with an analysis of how our findings relate to standard compute-optimal scaling using a validation set, and find that a misspecified validation set can impact compute-optimal parameter count by nearly 50%, depending on its skill composition.
- Abstract(参考訳): スケーリング法則はLLM開発パイプラインの重要なコンポーネントであり、"最適化された"トレードオフパラメータ数やデータセットサイズなどのトレーニング決定を予測する方法として有名である。
本研究では,計算-最適スケーリング動作がスキルに依存しているかどうかを問う。
特に、知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討し、この疑問に肯定的に答える:スケーリング法則はスキルに依存している。
次に、スキル依存のスケーリングが事前学習データミックスのアーチファクトであるかどうかを理解するために、異なるデータミックスの広範なアブレーションを行い、また、データミックスの違いを補正する場合、知識とコードはスケーリングの振る舞いに根本的な違いを示します。
本研究は,検証セットを用いた標準的な計算最適スケーリングとどのように関係しているかを解析し,そのスキル構成によって,不特定検証セットが計算最適パラメータ数に約50%影響することを発見した。
関連論文リスト
- LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。
実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文 参考訳(メタデータ) (2025-02-17T18:45:25Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。
1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。
本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文 参考訳(メタデータ) (2025-02-06T13:23:53Z) - The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。
我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文 参考訳(メタデータ) (2025-01-03T19:28:53Z) - Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。
我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文 参考訳(メタデータ) (2024-10-21T21:45:22Z) - gzip Predicts Data-dependent Scaling Laws [2.5461535398221478]
我々は,PCFGの構文特性を調節することにより,様々な複雑さのトレーニングデータセットを生成する。
本稿では,トレーニングデータのgzip圧縮性を考慮したLMのスケーリング法を提案する。
論文 参考訳(メタデータ) (2024-05-26T20:33:08Z) - Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。
他の選択戦略との比較は、QaDSの優位性を検証する。
OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文 参考訳(メタデータ) (2024-04-01T12:01:06Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。