論文の概要: Navigating Scaling Laws: Compute Optimality in Adaptive Model Training
- arxiv url: http://arxiv.org/abs/2311.03233v2
- Date: Wed, 21 Feb 2024 19:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:19:42.233092
- Title: Navigating Scaling Laws: Compute Optimality in Adaptive Model Training
- Title(参考訳): スケーリング法則のナビゲート:適応型モデルトレーニングにおける計算最適性
- Authors: Sotiris Anagnostidis, Gregor Bachmann, Imanol Schlag, Thomas Hofmann
- Abstract要約: 近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
- 参考スコア(独自算出の注目度): 43.655723038722805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the state-of-the-art in deep learning has been dominated by
very large models that have been pre-trained on vast amounts of data. The
paradigm is very simple: investing more computational resources (optimally)
leads to better performance, and even predictably so; neural scaling laws have
been derived that accurately forecast the performance of a network for a
desired level of compute. This leads to the notion of a `compute-optimal'
model, i.e. a model that allocates a given level of compute during training
optimally to maximize performance. In this work, we extend the concept of
optimality by allowing for an `adaptive' model, i.e. a model that can change
its shape during training. By doing so, we can design adaptive models that
optimally traverse between the underlying scaling laws and outpace their
`static' counterparts, leading to a significant reduction in the required
compute to reach a given target performance. We show that our approach
generalizes across modalities and different shape parameters.
- Abstract(参考訳): 近年、ディープラーニングの最先端技術は、大量のデータで事前学習された非常に大きなモデルによって支配されている。
このパラダイムは非常に単純で、より多くの計算リソース(最適)に投資することでパフォーマンスが向上し、さらに予測可能なものになります。
これは‘計算最適化’モデルの概念、すなわち、トレーニング中に与えられた計算レベルを最適に割り当ててパフォーマンスを最大化するモデルに繋がる。
本研究では,「適応的」モデル,すなわちトレーニング中に形状を変えることができるモデルを実現することにより,最適性の概念を拡張した。
これにより、基盤となるスケーリング法則の間を最適に横切る適応モデルを設計し、その「静的」法則を上回り、所定の目標性能に達するために必要な計算量が大幅に削減できる。
我々のアプローチは、モダリティと異なる形状パラメータをまたいで一般化する。
関連論文リスト
- A Dynamical Model of Neural Scaling Laws [86.9540615081759]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Joint inference and input optimization in equilibrium networks [68.63726855991052]
ディープ均衡モデル(Deep equilibrium model)は、従来のネットワークの深さを予測し、代わりに単一の非線形層の固定点を見つけることによってネットワークの出力を計算するモデルのクラスである。
この2つの設定の間には自然なシナジーがあることが示されています。
この戦略は、生成モデルのトレーニングや、潜時符号の最適化、デノベートやインペインティングといった逆問題に対するトレーニングモデル、対逆トレーニング、勾配に基づくメタラーニングなど、様々なタスクにおいて実証される。
論文 参考訳(メタデータ) (2021-11-25T19:59:33Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。
レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文 参考訳(メタデータ) (2020-08-02T02:56:30Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。