論文の概要: The 4th Dimension for Scaling Model Size
- arxiv url: http://arxiv.org/abs/2506.18233v2
- Date: Mon, 29 Sep 2025 03:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 14:13:47.368053
- Title: The 4th Dimension for Scaling Model Size
- Title(参考訳): モデルサイズスケーリングのための第4次元
- Authors: Ruike Zhu, Hanwen Zhang, Kevin Li, Tianyu Shi, Yiqun Duan, Chi Wang, Tianyi Zhou, Arindam Banerjee, Zengyi Qin,
- Abstract要約: 大きな言語モデルのスケーリングは通常、深さ、幅、パラメータカウントの3つの次元を含む。
重みを再利用することでパラメータ数を変化させることなく効率的なアルゴリズム深度を増大させる第4次元、textbfvirtual logical depth (VLD) を探索する。
- 参考スコア(独自算出の注目度): 35.78263351951403
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling large language models typically involves three dimensions: depth, width, and parameter count. In this work, we explore a fourth dimension, \textbf{virtual logical depth} (VLD), which increases effective algorithmic depth without changing parameter count by reusing weights. While parameter reuse is not new, its role in scaling has been underexplored. Unlike recent test-time methods that scale token-wise, VLD alters the internal computation graph during training and inference. Through controlled experiments, we obtain three key insights. (1) \textit{Knowledge capacity vs. parameters}: at fixed parameter count, VLD leaves knowledge capacity nearly unchanged, while across models capacity still scales with parameters. (2) \textit{Reasoning vs. reuse}: properly implemented VLD substantially improves reasoning ability \emph{without} more parameters, decoupling reasoning from size. This suggests a new scaling path beyond token-wise test-time methods. (3) \textit{Robustness and generality}: reasoning gains persist across architectures and reuse schedules, showing VLD captures a general scaling behavior. These results provide insight into future scaling strategies and raise a deeper question: does superintelligence require ever-larger models, or can it be achieved by reusing parameters and increasing logical depth? We argue many unknown dynamics in scaling remain to be explored. Code is available at https://anonymous.4open.science/r/virtual_logical_depth-8024/.
- Abstract(参考訳): 大きな言語モデルのスケーリングは通常、深さ、幅、パラメータカウントの3つの次元を含む。
本研究では, 重みを再利用することによってパラメータ数を変化させることなく, 効率的なアルゴリズム深度を増大させる第4次元, textbf{virtual logical depth} (VLD) について検討する。
パラメータの再利用は新しいものではないが、スケーリングにおけるその役割は過小評価されている。
トークンをスケールする最近のテストタイムメソッドとは異なり、VLDはトレーニングや推論中に内部の計算グラフを変更する。
制御実験により,3つの重要な知見を得た。
1) \textit{Knowledge capacity vs. parameters}: 固定パラメータカウントでは、VLDは知識キャパシティをほとんど変更せず、モデル全体のキャパシティはパラメータとともにスケールする。
2) \textit{Reasoning vs. reuse}: 適切に実装されたVLDは、推論能力 \emph{without} 以上のパラメータを改善し、推論をサイズから分離する。
これはトークン単位のテスト時間メソッドを超えた、新たなスケーリングパスを示唆している。
(3) \textit{Robustness and generality}: アーキテクチャ全体にわたる推論のゲインと再利用スケジュールは継続し、VLDは一般的なスケーリングの振る舞いをキャプチャする。
これらの結果は、将来のスケーリング戦略に関する洞察を与え、より深い疑問を提起する。超知能はより広いモデルを必要とするのか、それともパラメータの再利用と論理的な深さの増大によって達成できるのか?
スケーリングにおける多くの未知のダイナミクスが検討されるべきだと我々は主張する。
コードはhttps://anonymous.4open.science/r/virtual_logical_depth-8024/で公開されている。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Rethinking Parameter Counting in Deep Models: Effective Dimensionality
Revisited [36.712632126776285]
ニューラルネットワークは、パラメータカウントを複雑性のプロキシとして用いる際に、謎の一般化特性を持つことを示す。
これらの特性の多くは、データによって決定されるパラメータ空間の次元を測定する実効次元のレンズを通して見る際に理解可能であることを示す。
論文 参考訳(メタデータ) (2020-03-04T15:39:27Z) - A Geometric Modeling of Occam's Razor in Deep Learning [8.007631014276896]
ディープニューラルネットワーク(DNN)は、非常に高次元のパラメータ空間の恩恵を受ける。
彼らの巨大なパラメータの複雑さと実践上の素晴らしいパフォーマンスは、より興味深く、説明できないものです。
本稿では,この現象を研究するための幾何学的フレーバー付き情報理論手法を提案する。
論文 参考訳(メタデータ) (2019-05-27T07:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。