論文の概要: Active Budget Allocation for Efficient Scaling Law Estimation via Surrogate-Guided Pruning
- arxiv url: http://arxiv.org/abs/2605.17234v2
- Date: Mon, 25 May 2026 04:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.563895
- Title: Active Budget Allocation for Efficient Scaling Law Estimation via Surrogate-Guided Pruning
- Title(参考訳): サロゲート誘導プルーニングによる効率的なスケーリング法則推定のためのアクティブ予算割当
- Authors: Viktoria Schram, Markus Hiller, Daniel Beck, Trevor Cohn,
- Abstract要約: 経験的スケーリング法の研究は、この予測タスクを支援する機能形式を特定する。
このアプローチの実証的な性質のため、計算負担はかなり大きい。
本稿では,パラメトリックおよび非パラメトリックサロゲートモデルと組み合わせた逐次ハルビング(SH)とSHの適合性について検討する。
- 参考スコア(独自算出の注目度): 20.863873378387865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting model performance at larger scales enables the design of training strategies and architectures tailored to specific performance targets. Empirical scaling law research identifies functional forms to aid this prediction task. These describe the relationship between loss and compute using a loss-compute frontier defined by learning curves. Due to the empirical nature of this approach, the computational burden is substantial, making strategic resource allocation essential - yet it remains surprisingly underexplored. In this work, we address this shortcoming by exploring the suitability of Successive Halving (SH) and SH combined with parametric and non-parametric surrogate models. In addition to enabling a more systematic allocation of a given compute budget, our findings show that SH paired with surrogate models yields a set of learning curves that includes one with a lower loss-compute value than what naive uniform allocation or an SH-only approach can obtain. Our experiments demonstrate mean relative improvements of up to 2.84% and 5.47% on real-world and synthetic learning curve datasets. This strategic resource allocation enables us to obtain accurate scaling laws at significantly reduced computational costs, saving up to 98.7% over the traditional exhaustive approach.
- Abstract(参考訳): 大規模でモデルパフォーマンスを予測することで、特定のパフォーマンス目標に適したトレーニング戦略とアーキテクチャの設計が可能になる。
経験的スケーリング法の研究は、この予測タスクを支援する機能形式を特定する。
これらは、学習曲線によって定義される損失計算フロンティアを用いて、損失と計算の関係を記述する。
このアプローチの実証的な性質のため、計算の負担はかなり大きく、戦略的リソース割り当てが不可欠である。
本研究では、この欠点を、パラメトリックおよび非パラメトリックサロゲートモデルと組み合わせて、逐次ハルビング(SH)とSHの適合性を検討することで解決する。
計算予算のより体系的な割り当てを可能にすることに加え、シュロゲートモデルと組み合わせたSHは、単純一様割当やSHのみのアプローチよりも損失計算値の低い一組の学習曲線が得られることを示す。
我々の実験は、実世界の学習曲線と合成学習曲線のデータセットで2.84%と5.47%の相対的な改善を示している。
この戦略的リソース割り当てにより、計算コストを大幅に削減し、従来の徹底的なアプローチで最大98.7%のコストを節約できる正確なスケーリング法則を得ることができる。
関連論文リスト
- Observationally Informed Adaptive Causal Experimental Design [55.998153710215654]
本稿では,観測モデルを基礎的先行として活用する新たなパラダイムであるアクティブ残留学習を提案する。
このアプローチは、実験的な焦点を、目標因果量の学習から、観察バイアスの補正に必要な残差を効率的に推定するへとシフトさせる。
合成および半合成ベンチマークの実験は、R-Designがベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-03-04T06:52:37Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - Active Learning Using Aggregated Acquisition Functions: Accuracy and Sustainability Analysis [14.398823059302279]
Active Learning(AL)は、トレーニング中のアノテーションの最も情報性の高いサンプルを戦略的に選択する機械学習アプローチである。
この戦略はラベリングコストを削減するだけでなく、ニューラルネットワークトレーニング時の省エネにも寄与する。
我々は、その精度と計算コストを分析して、最先端の取得機能を実装し、評価する。
論文 参考訳(メタデータ) (2026-02-07T08:42:12Z) - Computational Economics in Large Language Models: Exploring Model Behavior and Incentive Design under Resource Constraints [1.00707850217229]
大規模言語モデル(LLM)は計算コストによって制限される。
我々は, LLMを資源制約されたエージェントの内部経済として扱う「計算経済学」の枠組みを導入する。
計算が不十分な場合、標準LLMは精度を保ちながら高価値トークンに注意を向ける。
論文 参考訳(メタデータ) (2025-08-14T07:55:45Z) - A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
推論コストは、今やリソース全体の負担の重要かつ増大する要素である。
本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文 参考訳(メタデータ) (2025-06-10T14:47:48Z) - Outcome-Based Online Reinforcement Learning: Algorithms and Fundamental Limits [58.63897489864948]
結果に基づくフィードバックによる強化学習は、根本的な課題に直面します。
適切なアクションにクレジットを割り当てるには?
本稿では,一般関数近似を用いたオンラインRLにおけるこの問題の包括的解析を行う。
論文 参考訳(メタデータ) (2025-05-26T17:44:08Z) - COSMOS: Predictable and Cost-Effective Adaptation of LLMs [21.91455944905485]
大規模言語モデル(LLM)は、多種多様な適応戦略を用いることで、多くのタスクにわたって顕著なパフォーマンスを達成する。
最小限のコストで適応結果を効率的に推定する統合予測フレームワークであるCOSMOSを紹介する。
論文 参考訳(メタデータ) (2025-04-30T02:06:26Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。