論文の概要: Understanding Scaling Laws for Recommendation Models
- arxiv url: http://arxiv.org/abs/2208.08489v1
- Date: Wed, 17 Aug 2022 19:13:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-19 14:02:11.159593
- Title: Understanding Scaling Laws for Recommendation Models
- Title(参考訳): 勧告モデルのスケーリング法則を理解する
- Authors: Newsha Ardalani, Carole-Jean Wu, Zeliang Chen, Bhargav Bhushanam,
Adnan Aziz
- Abstract要約: DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)の実証スケーリング法則について検討する。
データ、パラメータ、計算の3つの異なるリソース次元に沿ってスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが出現するまでは、データスケーリングが先進的な道であることを示す。
- 参考スコア(独自算出の注目度): 1.6283945233720964
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scale has been a major driving force in improving machine learning
performance, and understanding scaling laws is essential for strategic planning
for a sustainable model quality performance growth, long-term resource planning
and developing efficient system infrastructures to support large-scale models.
In this paper, we study empirical scaling laws for DLRM style recommendation
models, in particular Click-Through Rate (CTR). We observe that model quality
scales with power law plus constant in model size, data size and amount of
compute used for training. We characterize scaling efficiency along three
different resource dimensions, namely data, parameters and compute by comparing
the different scaling schemes along these axes. We show that parameter scaling
is out of steam for the model architecture under study, and until a
higher-performing model architecture emerges, data scaling is the path forward.
The key research questions addressed by this study include: Does a
recommendation model scale sustainably as predicted by the scaling laws? Or are
we far off from the scaling law predictions? What are the limits of scaling?
What are the implications of the scaling laws on long-term hardware/system
development?
- Abstract(参考訳): スケールは機械学習のパフォーマンス向上において大きな推進力であり、持続可能なモデル品質向上のための戦略的プランニング、長期リソース計画、大規模モデルをサポートする効率的なシステムインフラストラクチャの開発には、スケーリング法則を理解することが不可欠である。
本稿では,DLRMスタイルレコメンデーションモデル,特にClick-Through Rate(CTR)に対する経験的スケーリング法則について検討する。
モデルサイズ,データサイズ,トレーニングに使用する計算量などにおいて,モデル品質のスケールと電力法則が一定であることを観察した。
これらの軸に沿って異なるスケーリングスキームを比較することで,3つの異なるリソース次元,すなわちデータ,パラメータ,計算のスケーリング効率を特徴付ける。
パラメータスケーリングは、現在研究中のモデルアーキテクチャにとって絶大であり、より高いパフォーマンスのモデルアーキテクチャが現れるまで、データスケーリングが先進的な道であることを示す。
本研究が解決する重要な研究課題は次のとおりである。 推奨モデルは、スケーリング法則によって予測されるように持続的にスケールするだろうか?
それとも、スケーリング法予測から遠く離れているのだろうか?
スケーリングの限界は何ですか?
長期ハードウェア/システム開発におけるスケーリング法則の影響は?
関連論文リスト
- A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。
我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文 参考訳(メタデータ) (2024-10-15T17:59:10Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - Neural Scaling Laws on Graphs [54.435688297561015]
モデルおよびデータの観点から,グラフ上のニューラルスケーリング法則について検討する。
モデルスケーリングでは,スケール法が崩壊する現象を調査し,オーバーフィッティングを潜在的な理由として同定する。
データスケーリングについては、グラフのサイズが極めて不規則であるため、スケーリング法則においてグラフデータのボリュームを効果的に測定することはできないことを示唆する。
論文 参考訳(メタデータ) (2024-02-03T06:17:21Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Reproducible scaling laws for contrastive language-image learning [42.354402731615444]
コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を,パブリックLAIONデータセットとオープンソースOpenCLIPリポジトリを用いて検討する。
私たちの大規模な実験には、最大20億のイメージテキストペアでトレーニングされたモデルと、複数の下流タスクに対する電力法スケーリングの特定が含まれています。
OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法則において重要な役割を果たすことがわかった。
論文 参考訳(メタデータ) (2022-12-14T10:24:50Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for a Multi-Agent Reinforcement Learning Model [0.0]
グラウンストーン強化学習アルゴリズムAlphaZeroの性能スケーリングについて検討した。
我々は、利用可能な計算でボトルネックにならない場合、ニューラルネットワークパラメータカウントのパワー則としてプレイヤーの強度がスケールすることを発見した。
最適なニューラルネットワークサイズが予想されるスケーリングが、両方のゲームのデータに適合していることが分かりました。
論文 参考訳(メタデータ) (2022-09-29T19:08:51Z) - Scaling Laws Under the Microscope: Predicting Transformer Performance
from Small Scale Experiments [42.793379799720434]
本稿では,スケーリング法則がモデル開発の促進に有効かどうかを考察する。
スケーリング法則は、いくつかのNLPタスクにおいて微調整時に現れる。
スケーリング法則が存在するタスクに対しては、より大きなモデルのパフォーマンスを予測するために使用することができる。
論文 参考訳(メタデータ) (2022-02-13T19:13:00Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。