Fugu-MT 論文翻訳(概要): Compute Optimal Scaling of Skills: Knowledge vs Reasoning

論文の概要: Compute Optimal Scaling of Skills: Knowledge vs Reasoning

arxiv url: http://arxiv.org/abs/2503.10061v2
Date: Fri, 14 Mar 2025 01:39:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 13:25:17.756185
Title: Compute Optimal Scaling of Skills: Knowledge vs Reasoning
Title（参考訳）: スキルのCompute Optimal Scaling: 知識と推論
Authors: Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes,
Abstract要約: 計算-最適スケーリングの振る舞いがスキルに依存しているかどうかを問う。特に,知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討する。本研究は,検証セットを用いた標準的な計算-最適スケーリングとの関連性について分析した。
参考スコア（独自算出の注目度）: 50.76705503978189
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Scaling laws are a critical component of the LLM development pipeline, most famously as a way to forecast training decisions such as 'compute-optimally' trading-off parameter count and dataset size, alongside a more recent growing list of other crucial decisions. In this work, we ask whether compute-optimal scaling behaviour can be skill-dependent. In particular, we examine knowledge and reasoning-based skills such as knowledge-based QA and code generation, and we answer this question in the affirmative: scaling laws are skill-dependent. Next, to understand whether skill-dependent scaling is an artefact of the pretraining datamix, we conduct an extensive ablation of different datamixes and find that, also when correcting for datamix differences, knowledge and code exhibit fundamental differences in scaling behaviour. We conclude with an analysis of how our findings relate to standard compute-optimal scaling using a validation set, and find that a misspecified validation set can impact compute-optimal parameter count by nearly 50%, depending on its skill composition.
Abstract（参考訳）: スケーリング法則はLLM開発パイプラインの重要なコンポーネントであり、"最適化された"トレードオフパラメータ数やデータセットサイズなどのトレーニング決定を予測する方法として有名である。本研究では,計算-最適スケーリング動作がスキルに依存しているかどうかを問う。特に、知識に基づくQAやコード生成といった知識と推論に基づくスキルについて検討し、この疑問に肯定的に答える:スケーリング法則はスキルに依存している。次に、スキル依存のスケーリングが事前学習データミックスのアーチファクトであるかどうかを理解するために、異なるデータミックスの広範なアブレーションを行い、また、データミックスの違いを補正する場合、知識とコードはスケーリングの振る舞いに根本的な違いを示します。本研究は,検証セットを用いた標準的な計算最適スケーリングとどのように関係しているかを解析し,そのスキル構成によって,不特定検証セットが計算最適パラメータ数に約50%影響することを発見した。

関連論文リスト

Using Scaling Laws for Data Source Utility Estimation in Domain-Specific Pre-Training [4.90288999217624]
基礎モデルトレーニングにおいて,ドメイン固有のデータセット構築を最適化するためのフレームワークを提案する。我々のアプローチは、スケーリング法則を推定するために、通常の点推定アプローチ、いわゆるマイクロアニール(micro-annealing)を拡張します。我々は、70億のパラメータを持つ事前学習モデルの実験を通して、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-07-29T21:56:45Z)
Bayesian Neural Scaling Law Extrapolation with Prior-Data Fitted Networks [100.13335639780415]
スケーリング法則は、しばしばパワーローに従っており、より大きなスケールでのスケーリングの振る舞いを予測するために、パワーロー関数のいくつかの変種を提案した。既存の手法は主に点推定に依存しており、現実のアプリケーションにとって欠かせない不確実性を定量化しない。本研究では,ニューラルスケーリング法外挿のためのPFNに基づくベイズフレームワークについて検討する。
論文参考訳（メタデータ） (2025-05-29T03:19:17Z)
LLMs on the Line: Data Determines Loss-to-Loss Scaling Laws [21.053622641336744]
ロス・ツー・ロスのスケーリング法則は、事前トレーニングされたデータセットと下流タスク間の損失を関連付ける。実験の結果,事前学習データとトークン化器がスケーリングの傾向を決定することがわかった。
論文参考訳（メタデータ） (2025-02-17T18:45:25Z)
Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。 SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文参考訳（メタデータ） (2025-02-06T18:59:47Z)
Predicting Large Language Model Capabilities on Closed-Book QA Tasks Using Only Information Available Prior to Training [51.60874286674908]
我々は,事前学習データと知識保持に密接に結びついているCBQAタスクの性能予測に焦点をあてる。 1)事前学習プロセス全体,特にデータ構築を習得すること,2)モデルの知識保持を評価すること,3)トレーニング前に利用可能な情報のみを使用してタスク固有の知識保持を予測すること,の3つの課題に対処する。本稿では,事前学習データ,モデルサイズ,タスク固有の知識保持との関係を定量化する情報理論尺度であるSMIメトリクスを紹介する。
論文参考訳（メタデータ） (2025-02-06T13:23:53Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Bayesian scaling laws for in-context learning [72.17734205418502]
In-context Learning(ICL)は、言語モデルをトレーニング更新なしで複雑なタスクを実行するための強力なテクニックである。我々は、ICCがベイズ学習者を近似し、ICCのための新しいベイズスケーリング法則のファミリーを開発することを示す。
論文参考訳（メタデータ） (2024-10-21T21:45:22Z)
gzip Predicts Data-dependent Scaling Laws [2.5461535398221478]
我々は,PCFGの構文特性を調節することにより,様々な複雑さのトレーニングデータセットを生成する。本稿では,トレーニングデータのgzip圧縮性を考慮したLMのスケーリング法を提案する。
論文参考訳（メタデータ） (2024-05-26T20:33:08Z)
Exploring the Mystery of Influential Data for Mathematical Reasoning [127.61978092016228]
数学的推論のためのQaDS(Quality-Aware Diverse Selection)戦略を提案する。他の選択戦略との比較は、QaDSの優位性を検証する。 OpenMathMixでは、7Bベースモデルを用いたMATHで最先端の48.8%の精度を実現している。
論文参考訳（メタデータ） (2024-04-01T12:01:06Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
The choice of scaling technique matters for classification performance [6.745479230590518]
モノリシックモデルとアンサンブルモデルにおける5つのスケーリング手法が20の分類アルゴリズムの性能に与える影響を比較した。その結果,ほとんどの場合,最高のスケーリング手法と最悪のスケーリング手法のパフォーマンス差は関連性があり,統計的に有意であることがわかった。また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルの性能変化によって予測される傾向があることを示す。
論文参考訳（メタデータ） (2022-12-23T13:51:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。