論文の概要: Value-Based Deep RL Scales Predictably
- arxiv url: http://arxiv.org/abs/2502.04327v1
- Date: Thu, 06 Feb 2025 18:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:31:48.306874
- Title: Value-Based Deep RL Scales Predictably
- Title(参考訳): Value-based Deep RL Scales Predictably
- Authors: Oleh Rybkin, Michal Nauman, Preston Fu, Charlie Snell, Pieter Abbeel, Sergey Levine, Aviral Kumar,
- Abstract要約: 本研究は, 地域社会が病的行動に不安を抱いているにもかかわらず, 価値に基づく非政治的RL法が予測可能であることを示す。
SAC、BRO、PQLの3つのアルゴリズムを使って、DeepMind Control、OpenAI gym、IsaacGymの3つのアプローチを検証する。
- 参考スコア(独自算出の注目度): 100.21834069400023
- License:
- Abstract: Scaling data and compute is critical to the success of machine learning. However, scaling demands predictability: we want methods to not only perform well with more compute or data, but also have their performance be predictable from small-scale runs, without running the large-scale experiment. In this paper, we show that value-based off-policy RL methods are predictable despite community lore regarding their pathological behavior. First, we show that data and compute requirements to attain a given performance level lie on a Pareto frontier, controlled by the updates-to-data (UTD) ratio. By estimating this frontier, we can predict this data requirement when given more compute, and this compute requirement when given more data. Second, we determine the optimal allocation of a total resource budget across data and compute for a given performance and use it to determine hyperparameters that maximize performance for a given budget. Third, this scaling behavior is enabled by first estimating predictable relationships between hyperparameters, which is used to manage effects of overfitting and plasticity loss unique to RL. We validate our approach using three algorithms: SAC, BRO, and PQL on DeepMind Control, OpenAI gym, and IsaacGym, when extrapolating to higher levels of data, compute, budget, or performance.
- Abstract(参考訳): データと計算のスケーリングは、機械学習の成功に不可欠である。
しかし、スケーリングの予測可能性:我々は、より多くの計算やデータでうまく機能するだけでなく、大規模な実験を行わずに、小さな実行でそのパフォーマンスを予測できることを望んでいます。
本稿では,その病理行動に関するコミュニティの伝承にもかかわらず,価値に基づく非政治的RL手法が予測可能であることを示す。
まず、所定のパフォーマンスレベルを達成するためのデータと計算要求が、更新データ(UTD)比によって制御されるパレートフロンティアにあることを示す。
このフロンティアを推定することにより、より多くの計算を与えられたときにこのデータ要求を予測でき、より多くのデータを与えられたときにこの計算要求を予測できる。
次に、データ全体のリソース予算を最適に割り当て、与えられた性能の計算を行い、与えられた予算のパフォーマンスを最大化するハイパーパラメータを決定する。
第3に、このスケーリングの挙動は、RL特有の過度適合と可塑性損失の影響を管理するために使用されるハイパーパラメータ間の予測可能な関係を第一に推定することで可能となる。
SAC、BRO、PQLのDeepMind Control、OpenAI gym、IsaacGymの3つのアルゴリズムを使用して、より高いレベルのデータ、計算、予算、パフォーマンスに外挿する場合に、アプローチを検証する。
関連論文リスト
- Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - HyperINF: Unleashing the HyperPower of the Schulz's Method for Data Influence Estimation [37.62285675595782]
本稿では,効率よく正確な影響関数近似法であるHyperINFを提案する。
我々は、ヘッセン行列の低ランク近似として、GFIM(Generalized Fisher Information)を組み込んだ。
LoRAでチューニングされたモデルでは、HyperINFは最小限のメモリと計算オーバーヘッドで、より優れたダウンストリーム性能を実現する。
論文 参考訳(メタデータ) (2024-10-07T14:42:45Z) - A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
数発の強化学習のための合成非構造化データを生成するための分布認識フローマッチング手法を提案する。
我々のアプローチは、オーバーフィッティングやデータ相関など、従来のモデルベースRLにおける重要な課題に対処する。
提案手法は,初期タイムスタンプのフレームレートを30%向上させながら,最大Q値で安定した収束を実現することを示す。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Equation Discovery with Bayesian Spike-and-Slab Priors and Efficient Kernels [57.46832672991433]
ケルネル学習とBayesian Spike-and-Slab pres (KBASS)に基づく新しい方程式探索法を提案する。
カーネルレグレッションを用いてターゲット関数を推定する。これはフレキシブルで表現力があり、データ空間やノイズに対してより堅牢である。
我々は,効率的な後部推論と関数推定のための予測伝搬予測最大化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-09T03:55:09Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - LAVA: Data Valuation without Pre-Specified Learning Algorithms [20.578106028270607]
我々は、下流学習アルゴリズムに不利な方法でトレーニングデータを評価できる新しいフレームワークを導入する。
本研究では,訓練と検証セット間の非伝統的なクラスワイドワッサースタイン距離に基づいて,トレーニングセットに関連する検証性能のプロキシを開発する。
距離は、特定のリプシッツ条件下での任意のモデルに対する検証性能の上限を特徴付けることを示す。
論文 参考訳(メタデータ) (2023-04-28T19:05:16Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Human-in-the-loop: Provably Efficient Preference-based Reinforcement
Learning with General Function Approximation [107.54516740713969]
本研究は,RL(Human-in-the-loop reinforcement learning)を軌道的嗜好で検討する。
各ステップで数値的な報酬を受ける代わりに、エージェントは人間の監督者から軌道上のペアよりも優先される。
一般関数近似を用いたPbRLの楽観的モデルベースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-23T09:03:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。