論文の概要: Scaling CrossQ with Weight Normalization
- arxiv url: http://arxiv.org/abs/2506.03758v1
- Date: Wed, 04 Jun 2025 09:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.261358
- Title: Scaling CrossQ with Weight Normalization
- Title(参考訳): 体重正規化によるCrossQのスケーリング
- Authors: Daniel Palenicek, Florian Vogt, Jan Peters,
- Abstract要約: CrossQは,更新データ(UTD)比が1。
より高度なUTDによって強調されるトレーニングダイナミクスの課題を特定する。
本稿では,学習を安定させ,可塑性の潜在的な損失を防止し,効果的な学習率を一定に保つソリューションを提案する。
- 参考スコア(独自算出の注目度): 15.605124749589946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has achieved significant milestones, but sample efficiency remains a bottleneck for real-world applications. Recently, CrossQ has demonstrated state-of-the-art sample efficiency with a low update-to-data (UTD) ratio of 1. In this work, we explore CrossQ's scaling behavior with higher UTD ratios. We identify challenges in the training dynamics which are emphasized by higher UTDs, particularly Q-bias explosion and the growing magnitude of critic network weights. To address this, we integrate weight normalization into the CrossQ framework, a solution that stabilizes training, prevents potential loss of plasticity and keeps the effective learning rate constant. Our proposed approach reliably scales with increasing UTD ratios, achieving competitive or superior performance across a range of challenging tasks on the DeepMind control benchmark, notably the complex dog and humanoid environments. This work eliminates the need for drastic interventions, such as network resets, and offers a robust pathway for improving sample efficiency and scalability in model-free reinforcement learning.
- Abstract(参考訳): 強化学習は大きなマイルストーンを達成したが、サンプル効率は現実世界のアプリケーションではボトルネックのままである。
最近、CrossQは、更新データ(UTD)比が1。
本研究では, UTD比の高いCrossQのスケーリング挙動について検討する。
我々は、より高いUTD、特にQ-biasの爆発と、ネットワーク重みの増大によって強調されるトレーニングダイナミクスの課題を特定する。
これを解決するために、トレーニングを安定させ、可塑性の潜在的な損失を防止し、効果的な学習率を一定に保つソリューションであるCrossQフレームワークに重み正規化を統合する。
提案手法はUTD比を増大させ,DeepMind制御ベンチマークにおける様々な課題,特に複雑な犬とヒューマノイド環境において,競争力や優れた性能を達成するとともに,確実にスケールする。
この作業は、ネットワークリセットのような劇的な介入の必要性を排除し、モデルなし強化学習におけるサンプル効率とスケーラビリティを改善するための堅牢な経路を提供する。
関連論文リスト
- TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions [3.9635480458924994]
現実のアプリケーションにディープニューラルネットワークをデプロイする上で、敵の堅牢性は重要な課題である。
本稿では,初期安定化フェーズと階層化された逆トレーニングフェーズを統合した新しいトレーニングフレームワークTAETを提案する。
提案手法は既存の先進防衛を超越し,メモリと計算効率の両面で大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-03-02T12:07:00Z) - Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.212942734663514]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - SPEQ: Offline Stabilization Phases for Efficient Q-Learning in High Update-To-Data Ratio Reinforcement Learning [51.10866035483686]
強化学習(RL)における高アップデート・トゥ・データ(UTD)比のアルゴリズムは、サンプル効率を改善するが、高い計算コストを伴い、現実世界のスケーラビリティを制限している。
我々は、低UTDオンライントレーニングと周期的オフライン安定化フェーズを組み合わせたRLアルゴリズムである、効率的なQ-Learningのためのオフライン安定化フェーズ(SPEQ)を提案する。
これらのフェーズでは、Q-関数は固定されたリプレイバッファ上で高いUTD比で微調整され、サブ最適データの冗長な更新が削減される。
論文 参考訳(メタデータ) (2025-01-15T09:04:19Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Q-TART: Quickly Training for Adversarial Robustness and
in-Transferability [28.87208020322193]
本稿では,提案アルゴリズムであるQ-TARTを用いて,性能,効率,ロバスト性に取り組むことを提案する。
Q-TARTは、ノイズに強い影響を受けやすいサンプルが、ディープニューラルネットワークによって学習された決定境界に強く影響を与えるという直感に従う。
トレーニングデータのサブセットのみを使用しながら,性能向上と対向ロバスト性を実証した。
論文 参考訳(メタデータ) (2022-04-14T15:23:08Z) - Towards Balanced Learning for Instance Recognition [149.76724446376977]
本稿では,インスタンス認識のためのバランス学習のためのフレームワークであるLibra R-CNNを提案する。
IoUバランスのサンプリング、バランスの取れた特徴ピラミッド、客観的再重み付けをそれぞれ統合し、サンプル、特徴、客観的レベルの不均衡を低減します。
論文 参考訳(メタデータ) (2021-08-23T13:40:45Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。