論文の概要: Generalizing Scaling Laws for Dense and Sparse Large Language Models
- arxiv url: http://arxiv.org/abs/2508.06617v2
- Date: Wed, 13 Aug 2025 17:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 14:06:00.551732
- Title: Generalizing Scaling Laws for Dense and Sparse Large Language Models
- Title(参考訳): 密度とスパース大言語モデルのスケーリング法則の一般化
- Authors: Md Arafat Hossain, Xingfu Wu, Valerie Taylor, Ali Jannesari,
- Abstract要約: 本稿では,高密度かつスパースな大言語モデルに対する一般化スケーリング法則を提案する。
提案法則を既存のスケーリング法則と比較し,その有効性を実証する。
- 参考スコア(独自算出の注目度): 5.542294758759804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Over the past few years, the size of language models has grown exponentially, as has the computational cost to train these large models. This rapid growth has motivated researchers to develop new techniques aimed at enhancing the efficiency of the training process. Despite these advancements, optimally predicting the model size or allocating optimal resources remains a challenge. Several efforts have addressed the challenge by proposing different scaling laws, but almost all of them are architecture-specific (dense or sparse). In this work we revisit existing scaling laws and propose a generalized scaling law to provide a unified framework that is applicable to both dense and sparse large language models. We evaluate and compare our proposed scaling law with existing scaling laws to demonstrate its effectiveness.
- Abstract(参考訳): ここ数年、言語モデルのサイズは指数関数的に増加し、これらの大きなモデルを訓練するのに計算コストがかかるようになった。
この急速な成長は、トレーニングプロセスの効率化を目的とした新しい技術を開発する動機となった。
これらの進歩にもかかわらず、モデルのサイズを最適に予測したり、最適なリソースを割り当てることは依然として課題である。
いくつかの取り組みでは、異なるスケーリング法則を提案することで、この問題に対処している。
本研究では,既存のスケーリング法則を再検討し,高密度かつ疎度な大規模言語モデルに適用可能な統一フレームワークを提供するために,一般化されたスケーリング法則を提案する。
提案法則を既存のスケーリング法則と比較し,その有効性を実証する。
関連論文リスト
- Towards Robust Scaling Laws for Optimizers [89.21160945066737]
経験的スケーリング法則は、モデルのサイズやトレーニングデータの増加に伴って損失を予測するために広く使用されている。
本研究では, 損失分解を既約, 近似, 最適化誤差に分解した結果, チンチラ方式のスケーリング法則が自然に現れることを示す。
論文 参考訳(メタデータ) (2026-02-07T21:40:33Z) - Can Language Models Discover Scaling Laws? [57.794209392781845]
本稿では,拡張法則モデルとパラメータを協調的に最適化し,変数間の複雑な関係を自律的に探索する進化型エージェントSLDAgentを紹介する。
SLDAgentが、確立された人間由来の法則よりも、一貫して正確な外挿を示す法則を自動的に発見できることを、初めて実証した。
論文 参考訳(メタデータ) (2025-07-27T05:45:26Z) - How to Upscale Neural Networks with Scaling Law? A Survey and Practical Guidelines [20.62274005080048]
初期の研究では、モデル性能におけるパワー-ロー関係が確立され、計算-最適スケーリング戦略が導かれた。
スパースモデル、Mix-of-Experts、検索強化学習、マルチモーダルモデルは、しばしば伝統的なスケーリングパターンから逸脱する。
スケーリングの振る舞いは、視覚、強化学習、微調整といった領域によって異なり、よりニュアンスなアプローチの必要性が強調されている。
論文 参考訳(メタデータ) (2025-02-17T17:20:41Z) - Scaling Law for Language Models Training Considering Batch Size [17.09348741898811]
大規模言語モデル(LLM)は近年顕著な進歩を遂げており、この急速な進歩においてスケーリング法則が重要な役割を担っている。
本稿は,LLMトレーニングの実践において,重要なハイパーパラメータ,すなわちグローバルバッチサイズがどのように影響するかを実証的に検討する。
モデルのサイズとトレーニングデータ量に関する基本的なスケーリング法則を確立します。
次に,バッチサイズや学習率の変化が,これらのモデルの収束と一般化にどのように影響するかを検討する。
論文 参考訳(メタデータ) (2024-12-02T13:58:35Z) - A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Scaling Laws For Dense Retrieval [22.76001461620846]
本研究は,高密度検索モデルの性能が他のニューラルモデルと同様のスケーリング法則に従うかどうかを考察する。
その結果、我々の設定下では、高密度検索モデルの性能は、モデルサイズとアノテーション数に関連する正確なパワーロースケーリングに従っていることがわかった。
論文 参考訳(メタデータ) (2024-03-27T15:27:36Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Understanding Scaling Laws for Recommendation Models [1.6283945233720964]
DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。
データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
論文 参考訳(メタデータ) (2022-08-17T19:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。