論文の概要: Scaling laws for single-agent reinforcement learning
- arxiv url: http://arxiv.org/abs/2301.13442v1
- Date: Tue, 31 Jan 2023 06:38:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:23:55.223561
- Title: Scaling laws for single-agent reinforcement learning
- Title(参考訳): 単エージェント強化学習におけるスケーリング法則
- Authors: Jacob Hilton, Jie Tang, John Schulman
- Abstract要約: 与えられたリターンを達成するのに必要な最小の計算として定義されるリターンの単調関数である*内在性能*を導入する。
様々な環境において、本質的なパフォーマンスは、モデルサイズと環境相互作用における強力な法則であることがわかった。
特に,おもちゃのMNISTをベースとした環境において,タスクの「水平長」の変化は係数をほとんど変化させるが,この関係の指数は変化しないことを示す。
- 参考スコア(独自算出の注目度): 27.86599085479941
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that, in generative modeling, cross-entropy loss
improves smoothly with model size and training compute, following a power law
plus constant scaling law. One challenge in extending these results to
reinforcement learning is that the main performance objective of interest, mean
episode return, need not vary smoothly. To overcome this, we introduce
*intrinsic performance*, a monotonic function of the return defined as the
minimum compute required to achieve the given return across a family of models
of different sizes. We find that, across a range of environments, intrinsic
performance scales as a power law in model size and environment interactions.
Consequently, as in generative modeling, the optimal model size scales as a
power law in the training compute budget. Furthermore, we study how this
relationship varies with the environment and with other properties of the
training setup. In particular, using a toy MNIST-based environment, we show
that varying the "horizon length" of the task mostly changes the coefficient
but not the exponent of this relationship.
- Abstract(参考訳): 最近の研究は、生成的モデリングにおいて、クロスエントロピー損失はモデルのサイズとトレーニング計算によって滑らかに改善し、電力法則と一定のスケーリング法則に従うことを示した。
これらの結果を強化学習に拡張する上での課題のひとつは、関心のある主なパフォーマンス目標である平均エピソードリターンが、スムーズに変化する必要はないことだ。
これを解決するために、異なるサイズのモデルのファミリ間で与えられたリターンを達成するのに必要な最小の計算として定義されるリターンの単調関数 *inrinsic Performance* を導入する。
様々な環境において、本質的なパフォーマンスは、モデルサイズと環境相互作用における強力な法則であることがわかった。
したがって、生成モデルと同様に、最適モデルサイズは、トレーニング計算予算における電力法則としてスケールする。
さらに,この関係が環境やトレーニング環境の他の特性とどのように異なるかを検討した。
特に,おもちゃのmnistに基づく環境を用いて,タスクの「水平長」を変化させることで,この関係の指数ではなく係数が大きく変化することを示す。
関連論文リスト
- Scaling Laws for Pre-training Agents and World Models [22.701210075508147]
エンボディエージェントの性能は、モデルパラメータ、データセットサイズ、計算量を増やして改善されている。
本稿では,これらの課題におけるスケールの役割を,より正確に評価する。
論文 参考訳(メタデータ) (2024-11-07T04:57:40Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Mixtures of Experts Unlock Parameter Scaling for Deep RL [54.26191237981469]
本稿では,Mixture-of-Expert(MoE)モジュールを値ベースネットワークに組み込むことで,パラメータスケーラブルなモデルが得られることを示す。
この研究は、強化学習のためのスケーリング法則の開発に関する強力な実証的証拠を提供する。
論文 参考訳(メタデータ) (2024-02-13T17:18:56Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。