論文の概要: 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- arxiv url: http://arxiv.org/abs/2503.14858v1
- Date: Wed, 19 Mar 2025 03:33:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:20.407233
- Title: 1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities
- Title(参考訳): 自己監督型RLのための1000層ネットワーク:スケーリング深さが新たなゴールリーチ機能を実現する
- Authors: Kevin Wang, Ishaan Javali, Michał Bortkiewicz, Tomasz Trzciński, Benjamin Eysenbach,
- Abstract要約: 自己教師付き学習のスケールアップは言語とビジョンのブレークスルーを加速させたが、強化学習(RL)では同等の進歩がいまだに残されている。
本稿では,ネットワーク深度が重要な要素となる自己教師型RLの構築ブロックについて検討する。
- 参考スコア(独自算出の注目度): 18.997261006638798
- License:
- Abstract: Scaling up self-supervised learning has driven breakthroughs in language and vision, yet comparable progress has remained elusive in reinforcement learning (RL). In this paper, we study building blocks for self-supervised RL that unlock substantial improvements in scalability, with network depth serving as a critical factor. Whereas most RL papers in recent years have relied on shallow architectures (around 2 - 5 layers), we demonstrate that increasing the depth up to 1024 layers can significantly boost performance. Our experiments are conducted in an unsupervised goal-conditioned setting, where no demonstrations or rewards are provided, so an agent must explore (from scratch) and learn how to maximize the likelihood of reaching commanded goals. Evaluated on simulated locomotion and manipulation tasks, our approach increases performance by $2\times$ - $50\times$. Increasing the model depth not only increases success rates but also qualitatively changes the behaviors learned.
- Abstract(参考訳): 自己教師付き学習のスケールアップは、言語とビジョンのブレークスルーを導いた。
本稿では,ネットワークの深さが重要な要素となる自己教師型RLの構築ブロックについて検討する。
近年のほとんどのRL論文では、浅いアーキテクチャ(約2~5層)に依存していますが、深さを1024層に増やすことでパフォーマンスが大幅に向上することが示されています。
我々の実験は、実証や報酬が提供されない教師なしの目標条件設定で実施されるので、エージェントは(スクラッチから)探索し、指示された目標に到達する可能性の最大化方法を学ぶ必要があります。
シミュレーションされた移動と操作タスクに基づいて評価すると、我々のアプローチはパフォーマンスを2\times$ -50\times$に向上します。
モデル深度の増加は成功率を増加させるだけでなく、学習した振る舞いを質的に変化させる。
関連論文リスト
- Accelerating Goal-Conditioned RL Algorithms and Research [17.155006770675904]
自己指導型目標条件強化学習(GCRL)エージェントは、環境との非構造的相互作用において達成された目標から学習することで、新しい行動を発見する。
これらの手法は、低速環境シミュレーションのデータ不足や安定したアルゴリズムの欠如により、同様の成功は得られていない。
我々は、自制的なGCRLのためのベンチマーク(JaxGCRL)をリリースし、研究者は単一のGPU上で数百万の環境ステップでエージェントを訓練することができる。
論文 参考訳(メタデータ) (2024-08-20T17:58:40Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、30Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Intelligent gradient amplification for deep neural networks [2.610003394404622]
特に、ディープラーニングモデルは、モデルの深さが増加するにつれて、より大きなトレーニング時間を必要とします。
いくつかの解は独立してこれらの問題に対処するが、統合された解を特定するための最小限の努力があった。
本研究では,定式化手法を用いて,ディープラーニングモデルのどの層を勾配増幅に適用するかをインテリジェントに決定する。
論文 参考訳(メタデータ) (2023-05-29T03:38:09Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Model-Free Generative Replay for Lifelong Reinforcement Learning:
Application to Starcraft-2 [5.239932780277599]
生成的リプレイ(GR)は、生物学的にインスパイアされたリプレイ機構であり、自己ラベルの例で学習経験を増強する。
本稿では,2つのデシラタを満たすLRL用GRのバージョンを提案する。 (a) 深層RLを用いて学習したポリシーの潜在表現の内観的密度モデリング, (b) モデルなしのエンドツーエンド学習である。
論文 参考訳(メタデータ) (2022-08-09T22:00:28Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies [87.78260740602674]
総合化は強化学習(RL)の長年にわたる課題である。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバスト表現学習をポリシー最適化から切り離す,新たな自己経験的クローニング手法であるSECANTを提案する。
論文 参考訳(メタデータ) (2021-06-17T17:28:18Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - A Layer-Wise Information Reinforcement Approach to Improve Learning in
Deep Belief Networks [0.4893345190925178]
本稿では,情報強化層を層単位で検討し,特徴抽出と知識保持を改善するResidual Deep Belief Networkを提案する。
3つの公開データセットで実施した実験は、バイナリイメージ分類のタスクに関する堅牢性を示している。
論文 参考訳(メタデータ) (2021-01-17T18:53:18Z) - Uniform State Abstraction For Reinforcement Learning [6.624726878647541]
マルチグリッド強化学習(MultiGrid Reinforcement Learning, MRL)は, エージェントと環境との相互作用から, ポテンシャル関数の形で抽象的な知識を学習できることを実証した。
本稿では,DQN(Deep Q-Networks)のような最新のディープラーニングアルゴリズムを活用するためにMRLを拡張し改良する。
論文 参考訳(メタデータ) (2020-04-06T18:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。