論文の概要: Theoretical Foundations of Scaling Law in Familial Models
- arxiv url: http://arxiv.org/abs/2512.23407v1
- Date: Mon, 29 Dec 2025 12:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.483679
- Title: Theoretical Foundations of Scaling Law in Familial Models
- Title(参考訳): 家族モデルにおけるスケーリング法則の理論的基礎
- Authors: Huan Song, Qingfei Zhao, Ting Long, Shuyu Tian, Hongjun An, Jiawei Shao, Chi Zhang, Xuelong Li,
- Abstract要約: モデルサイズ(N)とトレーニングトークン(D)とともに、基本的なスケーリング変数としてグラニュラリティ(G)を導入します。
この結果から, 極小指数の乗法則に準じる粒度ペナルティが明らかとなった。
のパラダイムを検証することで、デプロイメントの柔軟性が達成可能であることを実証しています。
- 参考スコア(独自算出の注目度): 46.506708373314375
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural scaling laws have become foundational for optimizing large language model (LLM) training, yet they typically assume a single dense model output. This limitation effectively overlooks "Familial models, a transformative paradigm essential for realizing ubiquitous intelligence across heterogeneous device-edge-cloud hierarchies. Transcending static architectures, familial models integrate early exits with relay-style inference to spawn G deployable sub-models from a single shared backbone. In this work, we theoretically and empirically extend the scaling law to capture this "one-run, many-models" paradigm by introducing Granularity (G) as a fundamental scaling variable alongside model size (N) and training tokens (D). To rigorously quantify this relationship, we propose a unified functional form L(N, D, G) and parameterize it using large-scale empirical runs. Specifically, we employ a rigorous IsoFLOP experimental design to strictly isolate architectural impact from computational scale. Across fixed budgets, we systematically sweep model sizes (N) and granularities (G) while dynamically adjusting tokens (D). This approach effectively decouples the marginal cost of granularity from the benefits of scale, ensuring high-fidelity parameterization of our unified scaling law. Our results reveal that the granularity penalty follows a multiplicative power law with an extremely small exponent. Theoretically, this bridges fixed-compute training with dynamic architectures. Practically, it validates the "train once, deploy many" paradigm, demonstrating that deployment flexibility is achievable without compromising the compute-optimality of dense baselines.
- Abstract(参考訳): ニューラルスケーリング法則は、大規模言語モデル(LLM)のトレーニングを最適化する基礎となっているが、通常は単一の密度のモデル出力を仮定する。
この制限は、不均一なデバイス-エッジ-クラウド階層におけるユビキタスインテリジェンスの実現に不可欠な変革的パラダイムである「家族モデル」を効果的に見落としている。静的なアーキテクチャ、家族モデルは、リレースタイルの推論と統合して、単一の共有バックボーンからGをデプロイ可能なサブモデルを生成する。この記事では、Gをモデルサイズ(N)とトレーニングトークン(D)とともに基本的なスケーリング変数として導入することにより、この「ワンランの多モデル」パラダイムを理論的かつ実証的に拡張する。この関係を厳格に定量化するために、L(N, D, G)とパラメータを統一的な機能形式として提案し、大規模な経験的実行を用いてそれをパラメータ化する。我々は、厳密に検討されたアーキテクチャ設計から厳格に影響を受けながら、厳密なアーキテクチャ的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・構造的・組織的・組織的・構造的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・組織的・構造的・システムの多様、多様性性性性的・多様性性性的・多様性的・多様性(D)。
関連論文リスト
- The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models [54.51795784459866]
マルチモデル協調のための性能スケーリングの理論的枠組みを提案する。
本稿では,マルチモデルシステムにおいて,パラメータの総数に関して,パワー則のスケーリングが従うことを示す。
不均一なモデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンスのスケーリングを実現する。
論文 参考訳(メタデータ) (2025-12-29T09:55:12Z) - Towards a Comprehensive Scaling Law of Mixture-of-Experts [54.117786590884776]
本論文では,すべての重要な要因を考慮に入れた総合的かつ正確なMoEスケーリング法を提案する。
我々の結果は、$G$と$S$の最適設定が、モデルアーキテクチャとデータサイズの両方に依存しないことを示しています。
提案したMoEスケーリング法則は,将来のMoEモデル設計およびトレーニングを促進するための,正確かつ洞察に富んだガイダンスとして機能する可能性がある。
論文 参考訳(メタデータ) (2025-09-28T06:35:34Z) - Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。
NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。
我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文 参考訳(メタデータ) (2025-09-22T15:13:14Z) - Towards Greater Leverage: Scaling Laws for Efficient Mixture-of-Experts Language Models [25.608085561102566]
本稿では,高密度等価量上でのMoEモデルの計算優位性を定量化する指標として,レバレッジ効率(EL)を紹介する。
ELは、予測可能な電力法に従って、専門家のアクティベーション比と総計算予算によって駆動される。
我々はこれらの発見を統合スケーリング法則に統合し、その構成に基づいてMoEアーキテクチャのELを正確に予測する。
論文 参考訳(メタデータ) (2025-07-23T17:10:23Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。