論文の概要: $μ$pscaling small models: Principled warm starts and hyperparameter transfer
- arxiv url: http://arxiv.org/abs/2602.10545v1
- Date: Wed, 11 Feb 2026 05:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.492272
- Title: $μ$pscaling small models: Principled warm starts and hyperparameter transfer
- Title(参考訳): $μ$pscaling small model: Principled warm start and hyperparameter transfer
- Authors: Yuxin Ma, Nan Chen, Mateo Díaz, Soufiane Hayou, Dmitriy Kunisky, Soledad Villar,
- Abstract要約: 本稿では,幅広いアーキテクチャやアーキテクチャに適用可能な,原則付きアップスケーリング手法を提案する。
本研究では,本手法が現実的なデータセットやアーキテクチャに有効であることを実証的に示す。
- 参考スコア(独自算出の注目度): 30.73409211009394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large-scale neural networks are often trained and released in multiple sizes to accommodate diverse inference budgets. To improve efficiency, recent work has explored model upscaling: initializing larger models from trained smaller ones in order to transfer knowledge and accelerate convergence. However, this method can be sensitive to hyperparameters that need to be tuned at the target upscaled model size, which is prohibitively costly to do directly. It remains unclear whether the most common workaround -- tuning on smaller models and extrapolating via hyperparameter scaling laws -- is still sound when using upscaling. We address this with principled approaches to upscaling with respect to model widths and efficiently tuning hyperparameters in this setting. First, motivated by $μ$P and any-dimensional architectures, we introduce a general upscaling method applicable to a broad range of architectures and optimizers, backed by theory guaranteeing that models are equivalent to their widened versions and allowing for rigorous analysis of infinite-width limits. Second, we extend the theory of $μ$Transfer to a hyperparameter transfer technique for models upscaled using our method and empirically demonstrate that this method is effective on realistic datasets and architectures.
- Abstract(参考訳): 現代の大規模ニューラルネットワークは、様々な推論予算に対応するために、しばしば訓練され、複数のサイズでリリースされる。
知識を伝達し収束を加速するために、訓練されたより小さなモデルからより大規模なモデルを初期化する。
しかし、この手法は、ターゲットのスケールアップされたモデルサイズで調整する必要があるハイパーパラメータに敏感であり、直接的に行うのに極めてコストがかかる。
より小さなモデルのチューニングやハイパーパラメータスケーリング法則による外挿といった、最も一般的な回避策が、アップスケーリングを使用する場合においても、依然として健全かどうかは不明だ。
モデル幅に対するアップスケーリングの原則的アプローチと、この設定でのハイパーパラメータのチューニングを効率よく行うことで、この問題に対処する。
まず、$μ$Pと任意の次元アーキテクチャを動機として、モデルが拡張バージョンと同値であることを保証し、無限幅制限の厳密な解析を可能にする理論により、幅広いアーキテクチャやオプティマイザに適用可能な一般的なアップスケーリング手法を導入する。
第2に,本手法が現実的なデータセットやアーキテクチャに有効であることを実証的に示すために,μ$Transferの理論を,我々の手法を用いてスケールアップされたモデルに対するハイパーパラメータ転送手法に拡張する。
関連論文リスト
- Theoretical Foundations of Scaling Law in Familial Models [46.506708373314375]
モデルサイズ(N)とトレーニングトークン(D)とともに、基本的なスケーリング変数としてグラニュラリティ(G)を導入します。
この結果から, 極小指数の乗法則に準じる粒度ペナルティが明らかとなった。
のパラダイムを検証することで、デプロイメントの柔軟性が達成可能であることを実証しています。
論文 参考訳(メタデータ) (2025-12-29T12:01:58Z) - $μ$-Parametrization for Mixture of Experts [8.950722808523981]
非常に大きなモデルにおいて、Mixture-of-Experts (MoE) が主要なアーキテクチャとして登場している。
$mu$Transferはモデルスケール間で最適なハイパーパラメータをシームレスに転送することを可能にする。
実験により、最適な学習速度がモデルサイズ間で確実に伝達されることが示されている。
論文 参考訳(メタデータ) (2025-08-13T12:31:27Z) - Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。
現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。
本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文 参考訳(メタデータ) (2025-01-16T13:17:24Z) - Warmstarting for Scaling Language Models [47.691182347349894]
モデルのサイズを拡大してパフォーマンスをスケールすることは、現在の大規模言語モデルパラダイムにとって非常にうまく機能しています。
現代の規模のデータとモデルに対する高いトレーニングコストは、そのようなトレーニング設定のチューニング方法と到着方法の理解の欠如をもたらす。
大型モデルの事前訓練のコストを改善する1つの方法は、より安価にチューニングできる小型モデルから大規模なトレーニングをウォームスタートさせることである。
論文 参考訳(メタデータ) (2024-11-11T20:02:29Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。