論文の概要: DrM: Mastering Visual Reinforcement Learning through Dormant Ratio
Minimization
- arxiv url: http://arxiv.org/abs/2310.19668v2
- Date: Wed, 14 Feb 2024 03:56:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:24:02.604873
- Title: DrM: Mastering Visual Reinforcement Learning through Dormant Ratio
Minimization
- Title(参考訳): DrM: 休眠率最小化による視覚強化学習の習得
- Authors: Guowei Xu, Ruijie Zheng, Yongyuan Liang, Xiyao Wang, Zhecheng Yuan,
Tianying Ji, Yu Luo, Xiaoyu Liu, Jiaxin Yuan, Pu Hua, Shuzhen Li, Yanjie Ze,
Hal Daum\'e III, Furong Huang, Huazhe Xu
- Abstract要約: ビジュアル強化学習は、継続的な制御タスクにおいて有望である。
現在のアルゴリズムは、パフォーマンスのあらゆる面において、いまだに満足できない。
DrMは、ドッグドメインとマニピュレータドメインの両方のタスクを一貫して解決する最初のモデルフリーアルゴリズムである。
- 参考スコア(独自算出の注目度): 43.60484692738197
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual reinforcement learning (RL) has shown promise in continuous control
tasks. Despite its progress, current algorithms are still unsatisfactory in
virtually every aspect of the performance such as sample efficiency, asymptotic
performance, and their robustness to the choice of random seeds. In this paper,
we identify a major shortcoming in existing visual RL methods that is the
agents often exhibit sustained inactivity during early training, thereby
limiting their ability to explore effectively. Expanding upon this crucial
observation, we additionally unveil a significant correlation between the
agents' inclination towards motorically inactive exploration and the absence of
neuronal activity within their policy networks. To quantify this inactivity, we
adopt dormant ratio as a metric to measure inactivity in the RL agent's
network. Empirically, we also recognize that the dormant ratio can act as a
standalone indicator of an agent's activity level, regardless of the received
reward signals. Leveraging the aforementioned insights, we introduce DrM, a
method that uses three core mechanisms to guide agents'
exploration-exploitation trade-offs by actively minimizing the dormant ratio.
Experiments demonstrate that DrM achieves significant improvements in sample
efficiency and asymptotic performance with no broken seeds (76 seeds in total)
across three continuous control benchmark environments, including DeepMind
Control Suite, MetaWorld, and Adroit. Most importantly, DrM is the first
model-free algorithm that consistently solves tasks in both the Dog and
Manipulator domains from the DeepMind Control Suite as well as three dexterous
hand manipulation tasks without demonstrations in Adroit, all based on pixel
observations.
- Abstract(参考訳): 視覚強化学習(RL)は連続制御タスクにおいて有望である。
その進歩にもかかわらず、現在のアルゴリズムは、サンプル効率、漸近的性能、ランダム種の選択に対する堅牢性など、事実上あらゆるパフォーマンス面で満足できない。
本稿では、初期訓練中に持続的不活性を示すエージェントである既存の視覚的RL法の主な欠点を特定し、効果的に探索する能力を制限する。
さらに,この重要な観察により,運動的不活発な探索に対するエージェントの傾きと,その政策ネットワークにおける神経活動の欠如との間に有意な相関が明らかとなった。
この不活性を定量化するために、RLエージェントのネットワークにおける不活性を測定するために、休眠比を計量として採用する。
また, 報酬信号によらず, 休眠比がエージェントの活動レベルのスタンドアロン指標として機能することを実証的に認識する。
上記の知見を生かしたdrmは,エージェントの探索・探索トレードオフを積極的に最小化することにより,3つのコアメカニズムを用いてガイドする手法である。
実験によると、DrMはDeepMind Control Suite、MetaWorld、Adroitを含む3つの連続制御ベンチマーク環境において、壊れた種(合計76種)なしでサンプル効率と漸近性能を大幅に改善する。
最も重要なことは、drmはdeepmindコントロールスイートの犬とマニピュレータドメインの両方のタスクを一貫して解決する最初のモデルフリーなアルゴリズムである。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - MENTOR: Mixture-of-Experts Network with Task-Oriented Perturbation for Visual Reinforcement Learning [17.437573206368494]
視覚深部強化学習(RL)は、ロボットが非構造化タスクの視覚入力からスキルを習得することを可能にする。
現在のアルゴリズムはサンプル効率が低く、実用性が制限されている。
本稿では,RLエージェントのアーキテクチャと最適化の両方を改善する手法であるMENTORを提案する。
論文 参考訳(メタデータ) (2024-10-19T04:31:54Z) - Deep Reinforcement Learning Empowered Activity-Aware Dynamic Health
Monitoring Systems [69.41229290253605]
既存のモニタリングアプローチは、医療機器が複数の健康指標を同時に追跡するという前提で設計されている。
これは、その範囲内で関連するすべての健康値を報告し、過剰なリソース使用と外部データの収集をもたらす可能性があることを意味します。
最適なモニタリング性能とコスト効率のバランスをとるための動的アクティビティ・アウェアヘルスモニタリング戦略(DActAHM)を提案する。
論文 参考訳(メタデータ) (2024-01-19T16:26:35Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - Sequential Action-Induced Invariant Representation for Reinforcement
Learning [1.2046159151610263]
視覚的障害を伴う高次元観察からタスク関連状態表現を正確に学習する方法は、視覚的強化学習において難しい問題である。
本稿では,逐次動作の制御信号に従うコンポーネントのみを保持するために,補助学習者によってエンコーダを最適化した逐次行動誘発不変表現(SAR)法を提案する。
論文 参考訳(メタデータ) (2023-09-22T05:31:55Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z) - Continuous Control with Action Quantization from Demonstrations [35.44893918778709]
強化学習(Reinforcement Learning, RL)では、連続的な行動とは対照的に、離散的な行動はより複雑な探索問題をもたらす。
本稿では, 連続的な行動空間の離散化を学習するために, デモからのアクション量子化(AQuaDem)を提案する。
提案手法は,実演付きRL,プレイデータ付きRL,環境下での人間の演奏を実証するが,特定の課題を解決しないImitation Learningと,3つの異なる設定で評価する。
論文 参考訳(メタデータ) (2021-10-19T17:59:04Z) - Continuous Decoding of Daily-Life Hand Movements from Forearm Muscle
Activity for Enhanced Myoelectric Control of Hand Prostheses [78.120734120667]
本研究では,前腕のEMG活性をハンドキネマティクスに連続的にマップする,長期記憶(LSTM)ネットワークに基づく新しい手法を提案する。
私たちの研究は、この困難なデータセットを使用するハンドキネマティクスの予測に関する最初の報告です。
提案手法は, 人工手指の複数のDOFの独立的, 比例的アクティベーションのための制御信号の生成に適していることが示唆された。
論文 参考訳(メタデータ) (2021-04-29T00:11:32Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。