論文の概要: Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization
- arxiv url: http://arxiv.org/abs/2502.07523v1
- Date: Tue, 11 Feb 2025 12:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-12 14:09:15.230764
- Title: Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization
- Title(参考訳): バッチと重み正規化によるオフポリティ強化学習のスケールアップ
- Authors: Daniel Palenicek, Florian Vogt, Jan Peters,
- Abstract要約: CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
- 参考スコア(独自算出の注目度): 15.605124749589946
- License:
- Abstract: Reinforcement learning has achieved significant milestones, but sample efficiency remains a bottleneck for real-world applications. Recently, CrossQ has demonstrated state-of-the-art sample efficiency with a low update-to-data (UTD) ratio of 1. In this work, we explore CrossQ's scaling behavior with higher UTD ratios. We identify challenges in the training dynamics, which are emphasized by higher UTD ratios. To address these, we integrate weight normalization into the CrossQ framework, a solution that stabilizes training, has been shown to prevent potential loss of plasticity and keeps the effective learning rate constant. Our proposed approach reliably scales with increasing UTD ratios, achieving competitive performance across 25 challenging continuous control tasks on the DeepMind Control Suite and Myosuite benchmarks, notably the complex dog and humanoid environments. This work eliminates the need for drastic interventions, such as network resets, and offers a simple yet robust pathway for improving sample efficiency and scalability in model-free reinforcement learning.
- Abstract(参考訳): 強化学習は大きなマイルストーンを達成したが、サンプル効率は現実世界のアプリケーションではボトルネックのままである。
最近、CrossQは、更新データ(UTD)比が1。
本研究では, UTD比の高いCrossQのスケーリング挙動について検討する。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
これらの問題に対処するために、トレーニングを安定させるCrossQフレームワークに重み正規化を統合することで、可塑性の潜在的な損失を防止し、効果的な学習率を一定に保つことが示されている。
提案手法はUTD比を増大させ,DeepMind Control SuiteおよびMyosuiteベンチマークにおける25の課題からなる連続制御タスク,特に複雑な犬とヒューマノイド環境の競合性能を確実に拡張する。
この作業は、ネットワークリセットのような劇的な介入の必要性を排除し、モデルなし強化学習におけるサンプル効率とスケーラビリティを改善するための、シンプルながら堅牢な経路を提供する。
関連論文リスト
- SPEQ: Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
最近のオフポリシーアルゴリズムは、更新からデータへの比率を高め、環境相互作用ごとにより勾配の更新を行うことで、サンプル効率を向上させる。
これにより、サンプル効率が向上するが、必要な勾配更新の数が増えるため、計算コストが大幅に向上する。
本稿では,学習を異なる学習段階に分割することで,計算効率を向上させるためのサンプル効率向上手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T10:22:30Z) - MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。
高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。
時間差分学習のためのモデル拡張データ(MAD-TD)は,少数の生成データを用いて高UTDトレーニングを安定化する。
論文 参考訳(メタデータ) (2024-10-11T15:13:17Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting [25.93711502488151]
過度および過度に適合する検出に基づいて,トレーニング中のデータ更新率(UTD)を動的に調整する新しい手法を提案する。
本稿では,最新のモデルベース強化学習アルゴリズムであるDreamerV2に適用し,DeepMind Control SuiteとAtari 100$kベンチマークで評価する。
論文 参考訳(メタデータ) (2023-03-17T17:29:02Z) - Q-TART: Quickly Training for Adversarial Robustness and
in-Transferability [28.87208020322193]
本稿では,提案アルゴリズムであるQ-TARTを用いて,性能,効率,ロバスト性に取り組むことを提案する。
Q-TARTは、ノイズに強い影響を受けやすいサンプルが、ディープニューラルネットワークによって学習された決定境界に強く影響を与えるという直感に従う。
トレーニングデータのサブセットのみを使用しながら,性能向上と対向ロバスト性を実証した。
論文 参考訳(メタデータ) (2022-04-14T15:23:08Z) - Softmax with Regularization: Better Value Estimation in Multi-Agent
Reinforcement Learning [72.28520951105207]
q$-learningの過大評価は、シングルエージェント強化学習で広く研究されている重要な問題である。
ベースラインから逸脱する大きな関節動作値をペナライズする,新たな正規化ベースの更新方式を提案する。
本手法は,StarCraft IIマイクロマネジメントの課題に対して,一貫した性能向上を実現する。
論文 参考訳(メタデータ) (2021-03-22T14:18:39Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。