論文の概要: Hyperspherical Normalization for Scalable Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2502.15280v1
- Date: Fri, 21 Feb 2025 08:17:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 21:37:39.100992
- Title: Hyperspherical Normalization for Scalable Deep Reinforcement Learning
- Title(参考訳): スケーラブルな深層強化学習のための超球面正規化
- Authors: Hojoon Lee, Youngdo Lee, Takuma Seno, Donghu Kim, Peter Stone, Jaegul Choo,
- Abstract要約: SimbaV2は最適化を安定させるために設計された新しい強化学習アーキテクチャである。
57の連続制御タスクにおいて、より大きなモデルとより大きな計算で効果的にスケールアップし、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 57.016639036237315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scaling up the model size and computation has brought consistent performance improvements in supervised learning. However, this lesson often fails to apply to reinforcement learning (RL) because training the model on non-stationary data easily leads to overfitting and unstable optimization. In response, we introduce SimbaV2, a novel RL architecture designed to stabilize optimization by (i) constraining the growth of weight and feature norm by hyperspherical normalization; and (ii) using a distributional value estimation with reward scaling to maintain stable gradients under varying reward magnitudes. Using the soft actor-critic as a base algorithm, SimbaV2 scales up effectively with larger models and greater compute, achieving state-of-the-art performance on 57 continuous control tasks across 4 domains. The code is available at https://dojeon-ai.github.io/SimbaV2.
- Abstract(参考訳): モデルサイズと計算のスケールアップは、教師付き学習において一貫したパフォーマンス改善をもたらした。
しかし、このレッスンは、非定常データ上でモデルをトレーニングすることが、過度に適合し不安定な最適化につながるため、強化学習(RL)に適用できないことが多い。
これに対して,最適化の安定化を目的とした新しいRLアーキテクチャであるSimbaV2を紹介する。
一 超球面正規化による重量・特徴ノルムの成長を制限すること、及び
2報)報奨スケーリングを用いた分布値推定を用いて,報奨等級の異なる安定勾配を維持する。
SimbaV2は、ソフトアクター批判をベースアルゴリズムとして、より大きなモデルとより大きな計算で効果的にスケールアップし、4つのドメインにわたる57の継続的制御タスクで最先端のパフォーマンスを達成する。
コードはhttps://dojeon-ai.github.io/SimbaV2.comで公開されている。
関連論文リスト
- Improving Deep Knowledge Tracing via Gated Architectures and Adaptive Optimization [0.0]
Deep Knowledge Tracing (DKT) は、Recurrent Networks (RNN) を用いて学生の学習行動をモデル化し、過去のインタラクションデータに基づいて将来のパフォーマンスを予測する。
本稿では、アーキテクチャ改善と最適化という2つの観点からDKTモデルを再考する。
まず、ゲートリカレントユニット、特にLong Short-Term Memory(LSTM)ネットワークとGated Recurrent Units(GRU)を用いてモデルを強化する。
次に、PyTorchフレームワークを使用してDKTを再実装し、モダンなディープラーニングと互換性のあるモジュラーでアクセス可能なインフラを実現する。
論文 参考訳(メタデータ) (2025-04-24T14:24:31Z) - Communication-Efficient Language Model Training Scales Reliably and Robustly: Scaling Laws for DiLoCo [22.7130140114906]
固定計算予算下でのLLMのトレーニングにおいて,DiLoCoのスケーリング法挙動について検討した。
DiLoCoはモデルサイズで予測可能かつ堅牢にスケールする。
十分に調整された場合、DiLoCoはモデルサイズでデータ並列トレーニングよりもスケールし、小さなモデルサイズでもデータ並列トレーニングよりパフォーマンスがよい。
論文 参考訳(メタデータ) (2025-03-12T20:04:38Z) - S$^2$R: Teaching LLMs to Self-verify and Self-correct via Reinforcement Learning [51.84977135926156]
S$2$Rはモデルに推論時の自己検証と自己正当性を教えることによってLLM推論を強化する効率的なフレームワークである。
以上の結果から,Qwen2.5-math-7Bの精度は51.0%から81.6%に向上した。
論文 参考訳(メタデータ) (2025-02-18T13:40:22Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Deep Equilibrium Optical Flow Estimation [80.80992684796566]
最近のSOTA(State-of-the-art)光フローモデルでは、従来のアルゴリズムをエミュレートするために有限ステップの更新操作を使用する。
これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するために直接訓練されていない。
暗黙的層の無限レベル固定点として直接流れを解く手法として,Deep equilibrium Flow estimatorを提案する。
論文 参考訳(メタデータ) (2022-04-18T17:53:44Z) - Scalable Rule-Based Representation Learning for Interpretable
Classification [12.736847587988853]
ルールベースのLearner Representation (RRL)は、データ表現と分類のための解釈可能な非ファジィ規則を学習する。
RRLは容易に調整でき、異なるシナリオの分類精度とモデルの複雑さのトレードオフを得ることができる。
論文 参考訳(メタデータ) (2021-09-30T13:07:42Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。