Fugu-MT 論文翻訳(概要): Navigating Scaling Laws: Compute Optimality in Adaptive Model Training

論文の概要: Navigating Scaling Laws: Compute Optimality in Adaptive Model Training

arxiv url: http://arxiv.org/abs/2311.03233v2
Date: Wed, 21 Feb 2024 19:50:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-23 18:19:42.233092
Title: Navigating Scaling Laws: Compute Optimality in Adaptive Model Training
Title（参考訳）: スケーリング法則のナビゲート:適応型モデルトレーニングにおける計算最適性
Authors: Sotiris Anagnostidis, Gregor Bachmann, Imanol Schlag, Thomas Hofmann
Abstract要約: 近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
参考スコア（独自算出の注目度）: 43.655723038722805
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, the state-of-the-art in deep learning has been dominated by very large models that have been pre-trained on vast amounts of data. The paradigm is very simple: investing more computational resources (optimally) leads to better performance, and even predictably so; neural scaling laws have been derived that accurately forecast the performance of a network for a desired level of compute. This leads to the notion of a `compute-optimal' model, i.e. a model that allocates a given level of compute during training optimally to maximize performance. In this work, we extend the concept of optimality by allowing for an `adaptive' model, i.e. a model that can change its shape during training. By doing so, we can design adaptive models that optimally traverse between the underlying scaling laws and outpace their `static' counterparts, leading to a significant reduction in the required compute to reach a given target performance. We show that our approach generalizes across modalities and different shape parameters.
Abstract（参考訳）: 近年、ディープラーニングの最先端技術は、大量のデータで事前学習された非常に大きなモデルによって支配されている。このパラダイムは非常に単純で、より多くの計算リソース(最適)に投資することでパフォーマンスが向上し、さらに予測可能なものになります。これは‘計算最適化’モデルの概念、すなわち、トレーニング中に与えられた計算レベルを最適に割り当ててパフォーマンスを最大化するモデルに繋がる。本研究では,「適応的」モデル,すなわちトレーニング中に形状を変えることができるモデルを実現することにより,最適性の概念を拡張した。これにより、基盤となるスケーリング法則の間を最適に横切る適応モデルを設計し、その「静的」法則を上回り、所定の目標性能に達するために必要な計算量が大幅に削減できる。我々のアプローチは、モダリティと異なる形状パラメータをまたいで一般化する。

関連論文リスト

Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文参考訳（メタデータ） (2025-07-24T01:09:25Z)
Scaling Laws of Motion Forecasting and Planning -- A Technical Report [23.340801154900387]
本研究では,エンコーダ・デコーダ・オートレグレッシブ・トランスモデルの実証スケーリング法則について検討する。モデルトレーニング損失とモデル評価指標との間には,強い相関関係がみられた。我々は,エゴエージェントの性能向上のために,他のエージェントの一般的なログ化された運転データに対するトレーニングの有用性を短時間で検討した。
論文参考訳（メタデータ） (2025-06-09T20:54:23Z)
Optimizing ML Training with Metagradient Descent [69.89631748402377]
モデルトレーニングによる勾配というメタグラディエントを,大規模に効率的に計算するアルゴリズムを導入する。次に、メタグラディエントを用いた効果的な最適化を可能にする「滑らかなモデルトレーニング」フレームワークを導入する。
論文参考訳（メタデータ） (2025-03-17T22:18:24Z)
The interplay between domain specialization and model size [8.653321928148547]
計算制約シナリオ下での継続事前学習におけるドメインサイズとモデルサイズ間の相互作用について検討する。我々の目標は、このシナリオに最適なトレーニング体制を特定し、異なるモデルサイズとドメインにまたがって一般化可能な、この相互作用のパターンを検出することです。
論文参考訳（メタデータ） (2025-01-03T19:28:53Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。 ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。 ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文参考訳（メタデータ） (2024-10-15T17:47:44Z)
More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。 a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文参考訳（メタデータ） (2024-04-30T12:05:48Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Building Resilience to Out-of-Distribution Visual Data via Input Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文参考訳（メタデータ） (2022-11-29T14:06:35Z)
Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文参考訳（メタデータ） (2021-06-11T18:59:24Z)
Bayesian Optimization for Selecting Efficient Machine Learning Models [53.202224677485525]
本稿では,予測効率とトレーニング効率の両面において,モデルを協調最適化するための統一ベイズ最適化フレームワークを提案する。レコメンデーションタスクのためのモデル選択の実験は、この方法で選択されたモデルがモデルのトレーニング効率を大幅に改善することを示している。
論文参考訳（メタデータ） (2020-08-02T02:56:30Z)
Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文参考訳（メタデータ） (2020-01-23T03:59:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。