論文の概要: SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.09754v1
- Date: Sun, 13 Oct 2024 07:20:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 05:02:48.442281
- Title: SimBa: Simplicity Bias for Scaling Up Parameters in Deep Reinforcement Learning
- Title(参考訳): SimBa: 深層強化学習におけるパラメータのスケールアップのための単純性バイアス
- Authors: Hojoon Lee, Dongyoon Hwang, Donghu Kim, Hyunseung Kim, Jun Jet Tai, Kaushik Subramanian, Peter R. Wurman, Jaegul Choo, Peter Stone, Takuma Seno,
- Abstract要約: SimBaは、単純さのバイアスを注入することによって、深いRLでパラメータをスケールアップするように設計されたアーキテクチャである。
SimBaでパラメータをスケールアップすることで、オフポリシー、オンポリシー、アン教師なしメソッドを含む様々なディープRLアルゴリズムのサンプル効率が一貫して改善される。
- 参考スコア(独自算出の注目度): 49.83621156017321
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in CV and NLP have been largely driven by scaling up the number of network parameters, despite traditional theories suggesting that larger networks are prone to overfitting. These large networks avoid overfitting by integrating components that induce a simplicity bias, guiding models toward simple and generalizable solutions. However, in deep RL, designing and scaling up networks have been less explored. Motivated by this opportunity, we present SimBa, an architecture designed to scale up parameters in deep RL by injecting a simplicity bias. SimBa consists of three components: (i) an observation normalization layer that standardizes inputs with running statistics, (ii) a residual feedforward block to provide a linear pathway from the input to output, and (iii) a layer normalization to control feature magnitudes. By scaling up parameters with SimBa, the sample efficiency of various deep RL algorithms-including off-policy, on-policy, and unsupervised methods-is consistently improved. Moreover, solely by integrating SimBa architecture into SAC, it matches or surpasses state-of-the-art deep RL methods with high computational efficiency across DMC, MyoSuite, and HumanoidBench. These results demonstrate SimBa's broad applicability and effectiveness across diverse RL algorithms and environments.
- Abstract(参考訳): CVとNLPの最近の進歩は、ネットワークパラメータのスケールアップによって大きく引き起こされている。
これらの大きなネットワークは、単純で一般化可能なソリューションに向けてモデルを導く、単純さのバイアスを引き起こすコンポーネントを統合することで過度な適合を避ける。
しかし、深いRLでは、ネットワークの設計とスケールアップはあまり検討されていない。
この機会に動機づけられたSimBaは、単純さのバイアスを注入することで、深いRLでパラメータをスケールアップするように設計されたアーキテクチャである。
SimBaは3つのコンポーネントから構成される。
一 動作統計で入力を標準化する観測正規化層
二 入力から出力までの線形経路を提供する残留フィードフォワードブロック及び
三 特徴量を制御するための層正規化。
SimBaでパラメータをスケールアップすることで、オフポリシー、オンポリシー、アン教師なしメソッドを含む様々なディープRLアルゴリズムのサンプル効率が一貫して改善される。
さらに、SimBa アーキテクチャを SAC に統合することで、DMC、MyoSuite、HumanoidBench にまたがる高い計算効率で最先端の深層 RL 手法に適合または超越する。
これらの結果は、様々なRLアルゴリズムと環境にまたがって、SimBaの幅広い適用性と有効性を示している。
関連論文リスト
- A Distribution-Aware Flow-Matching for Generating Unstructured Data for Few-Shot Reinforcement Learning [1.0709300917082865]
組込みプロセッサ上の数ショット強化学習(RL)に適した合成非構造化データを生成するために設計された分散型フローマッチングを提案する。
我々はランダムフォレストを通した特徴重み付けを重要データ面の優先順位付けに適用し,生成した合成データの精度を向上させる。
本手法は,最初期の第1タイムスタンプにおいて,フレームレートを30%向上しながら,最大Q値に基づく安定収束を提供する。
論文 参考訳(メタデータ) (2024-09-21T15:50:59Z) - Efficient Training of Deep Neural Operator Networks via Randomized Sampling [0.0]
ディープオペレータネットワーク(DeepNet)は、様々な科学的・工学的応用における複雑な力学のリアルタイム予測に成功している。
本稿では,DeepONetのトレーニングを取り入れたランダムサンプリング手法を提案する。
実験の結果,訓練中にトランクネットワーク入力にランダム化を組み込むことで,DeepONetの効率性と堅牢性が向上し,複雑な物理系のモデリングにおけるフレームワークの性能向上に期待できる道筋が得られた。
論文 参考訳(メタデータ) (2024-09-20T07:18:31Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Lightweight and Flexible Deep Equilibrium Learning for CSI Feedback in
FDD Massive MIMO [13.856867175477042]
広帯域多重出力(MIMO)システムでは、ダウンリンクチャネル状態情報(CSI)をベースステーション(BS)に送信する必要がある。
本稿では,深層平衡モデルを用いた軽量で柔軟な深層学習に基づくCSIフィードバック手法を提案する。
論文 参考訳(メタデータ) (2022-11-28T05:53:09Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。
我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文 参考訳(メタデータ) (2021-11-02T20:24:01Z) - Neural Calibration for Scalable Beamforming in FDD Massive MIMO with
Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。
受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。
エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文 参考訳(メタデータ) (2021-08-03T14:26:14Z) - Optimization-driven Machine Learning for Intelligent Reflecting Surfaces
Assisted Wireless Networks [82.33619654835348]
インテリジェントサーフェス(IRS)は、個々の散乱素子の位相シフトを制御して無線チャネルを再形成するために用いられる。
散乱素子の規模が大きいため、受動ビームフォーミングは一般に高い計算複雑性によって挑戦される。
本稿では、IRS支援無線ネットワークの性能向上のための機械学習(ML)アプローチに焦点を当てる。
論文 参考訳(メタデータ) (2020-08-29T08:39:43Z) - DessiLBI: Exploring Structural Sparsity of Deep Networks via
Differential Inclusion Paths [45.947140164621096]
逆スケール空間の差分包摂に基づく新しい手法を提案する。
DessiLBIが早期に「優勝チケット」を発表することを示す。
論文 参考訳(メタデータ) (2020-07-04T04:40:16Z) - Kernel and Rich Regimes in Overparametrized Models [69.40899443842443]
過度にパラメータ化された多層ネットワーク上の勾配勾配は、RKHSノルムではないリッチな暗黙バイアスを誘発できることを示す。
また、より複雑な行列分解モデルと多層非線形ネットワークに対して、この遷移を実証的に示す。
論文 参考訳(メタデータ) (2020-02-20T15:43:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。