論文の概要: Compute-Optimal Scaling for Value-Based Deep RL
- arxiv url: http://arxiv.org/abs/2508.14881v1
- Date: Wed, 20 Aug 2025 17:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.543392
- Title: Compute-Optimal Scaling for Value-Based Deep RL
- Title(参考訳): 値ベース深部RLのためのCompute-Optimal Scaling
- Authors: Preston Fu, Oleh Rybkin, Zhiyuan Zhou, Michal Nauman, Pieter Abbeel, Sergey Levine, Aviral Kumar,
- Abstract要約: オンライン価値ベースディープRLの計算スケーリングについて検討する。
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
この現象を理解するためのメンタルモデルを提供し、バッチサイズとUTDを選択するためのガイドラインを構築します。
- 参考スコア(独自算出の注目度): 96.33386443664929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As models grow larger and training them becomes expensive, it becomes increasingly important to scale training recipes not just to larger models and more data, but to do so in a compute-optimal manner that extracts maximal performance per unit of compute. While such scaling has been well studied for language modeling, reinforcement learning (RL) has received less attention in this regard. In this paper, we investigate compute scaling for online, value-based deep RL. These methods present two primary axes for compute allocation: model capacity and the update-to-data (UTD) ratio. Given a fixed compute budget, we ask: how should resources be partitioned across these axes to maximize sample efficiency? Our analysis reveals a nuanced interplay between model size, batch size, and UTD. In particular, we identify a phenomenon we call TD-overfitting: increasing the batch quickly harms Q-function accuracy for small models, but this effect is absent in large models, enabling effective use of large batch size at scale. We provide a mental model for understanding this phenomenon and build guidelines for choosing batch size and UTD to optimize compute usage. Our findings provide a grounded starting point for compute-optimal scaling in deep RL, mirroring studies in supervised learning but adapted to TD learning.
- Abstract(参考訳): モデルが大きくなり、トレーニングが高価になるにつれて、より大きなモデルやより多くのデータにトレーニングのレシピをスケールすることだけでなく、計算単位当たりの最大パフォーマンスを抽出する計算最適化的な方法で行うことがますます重要になる。
このようなスケーリングは言語モデリングにおいてよく研究されているが、強化学習(RL)はこの点においてあまり注目されていない。
本稿では,オンライン価値ベースディープRLにおける計算スケーリングについて検討する。
これらの手法は、モデルキャパシティと更新データ(UTD)比の2つの主軸を示す。
リソースをこれらの軸に分割してサンプル効率を最大化するにはどうすればよいのか?
解析の結果,モデルサイズ,バッチサイズ,UTD間の微妙な相互作用が明らかになった。
特に、我々はTDオーバーフィッティング(TD-overfitting)と呼ぶ現象を特定し、バッチの増加は小さなモデルのQ関数精度を素早く損なうが、この効果は大規模モデルでは欠落しており、大規模なバッチサイズを効果的に活用することができる。
この現象を理解するためのメンタルモデルを提供し、バッチサイズを選択するためのガイドラインと、計算使用量の最適化のためのUTDを構築します。
本研究は, 深部RLにおける計算最適スケーリングの出発点として, 教師あり学習に適応するが, TD学習に適応する。
関連論文リスト
- Scaling Laws of Motion Forecasting and Planning -- A Technical Report [23.340801154900387]
本研究では,エンコーダ・デコーダ・オートレグレッシブ・トランスモデルの実証スケーリング法則について検討する。
モデルトレーニング損失とモデル評価指標との間には,強い相関関係がみられた。
我々は,エゴエージェントの性能向上のために,他のエージェントの一般的なログ化された運転データに対するトレーニングの有用性を短時間で検討した。
論文 参考訳(メタデータ) (2025-06-09T20:54:23Z) - Value-Based Deep RL Scales Predictably [100.21834069400023]
本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-06T18:59:47Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Scaling Laws for Neural Language Models [14.472857826717613]
クロスエントロピー損失に対する言語モデル性能のスケーリング法則について検討する。
損失は、モデルサイズ、データセットサイズ、トレーニングに使用される計算量など、パワーローとしてスケールする。
論文 参考訳(メタデータ) (2020-01-23T03:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。