論文の概要: The 4th Dimension for Scaling Model Size
- arxiv url: http://arxiv.org/abs/2506.18233v1
- Date: Mon, 23 Jun 2025 01:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.817585
- Title: The 4th Dimension for Scaling Model Size
- Title(参考訳): モデルサイズスケーリングのための第4次元
- Authors: Ruike Zhu, Hanwen Zhang, Tianyu Shi, Chi Wang, Tianyi Zhou, Zengyi Qin,
- Abstract要約: 4次元の仮想論理深度(VLD)を探索し,パラメータの総数を変化させることなく,効率的なアルゴリズム深度を増大させる。
VLDスケーリングにより、モデルの知識容量はほぼ一定であり、わずかなバリエーションしか持たない。
パラメータの数は知識能力と相関するが、推論能力には関連しない。
- 参考スコア(独自算出の注目度): 29.748081296881125
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Scaling the size of large language models typically involves three dimensions: depth, width, and the number of parameters. In this work, we explore a fourth dimension, virtual logical depth (VLD), which increases the effective algorithmic depth without changing the overall parameter count by reusing parameters within the model. Although parameter reuse is not a new concept, its potential and characteristics in model scaling have not been thoroughly studied. Through carefully designed controlled experiments, we make the following key discoveries regarding VLD scaling: VLD scaling forces the knowledge capacity of the model to remain almost constant, with only minor variations. VLD scaling enables a significant improvement in reasoning capability, provided the scaling method is properly implemented. The number of parameters correlates with knowledge capacity, but not with reasoning capability. Under certain conditions, it is not necessary to increase the parameter count to enhance reasoning. These findings are consistent across various model configurations and are likely to be generally valid within the scope of our experiments.
- Abstract(参考訳): 大きな言語モデルのサイズを拡大するには、一般的に、深さ、幅、パラメータの数という3つの次元を含む。
本研究では、4次元仮想論理深度(VLD)を探索し、モデル内のパラメータを再利用することでパラメータ数を変化させることなく効率的なアルゴリズム深度を増大させる。
パラメータ再利用は新しい概念ではないが、モデルスケーリングにおけるその可能性と特性は十分に研究されていない。
VLDスケーリングは、モデルの知識能力をほとんど一定に保ち、わずかなバリエーションしか持たない。
VLDスケーリングは、スケーリング方法が適切に実装されている場合、推論能力の大幅な改善を可能にする。
パラメータの数は知識能力と相関するが、推論能力には関連しない。
特定の条件下では、推論を強化するためにパラメータ数を増やす必要はない。
これらの結果は様々なモデル構成で一致しており、実験の範囲内で一般的に有効である可能性が高い。
関連論文リスト
- Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z) - Rethinking Parameter Counting in Deep Models: Effective Dimensionality
Revisited [36.712632126776285]
ニューラルネットワークは、パラメータカウントを複雑性のプロキシとして用いる際に、謎の一般化特性を持つことを示す。
これらの特性の多くは、データによって決定されるパラメータ空間の次元を測定する実効次元のレンズを通して見る際に理解可能であることを示す。
論文 参考訳(メタデータ) (2020-03-04T15:39:27Z) - A Geometric Modeling of Occam's Razor in Deep Learning [8.007631014276896]
ディープニューラルネットワーク(DNN)は、非常に高次元のパラメータ空間の恩恵を受ける。
彼らの巨大なパラメータの複雑さと実践上の素晴らしいパフォーマンスは、より興味深く、説明できないものです。
本稿では,この現象を研究するための幾何学的フレーバー付き情報理論手法を提案する。
論文 参考訳(メタデータ) (2019-05-27T07:57:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。