論文の概要: Hard-Thresholding Meets Evolution Strategies in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.01615v1
- Date: Thu, 2 May 2024 16:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 15:04:28.150043
- Title: Hard-Thresholding Meets Evolution Strategies in Reinforcement Learning
- Title(参考訳): 強化学習における進化戦略とハードThresholding
- Authors: Chengqian Gao, William de Vazelhes, Hualin Zhang, Bin Gu, Zhiqiang Xu,
- Abstract要約: 進化戦略(Evolution Strategies, ES)は、モデルレス強化学習の競争代替手段として登場した。
この研究は、特に自然進化戦略(NES)の亜種に焦点を当てて、この制限を精査している。
本稿では,HT(Hard-Thresholding)とNESを統合したNESHTを提案する。
- 参考スコア(独自算出の注目度): 27.016263706931323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolution Strategies (ES) have emerged as a competitive alternative for model-free reinforcement learning, showcasing exemplary performance in tasks like Mujoco and Atari. Notably, they shine in scenarios with imperfect reward functions, making them invaluable for real-world applications where dense reward signals may be elusive. Yet, an inherent assumption in ES, that all input features are task-relevant, poses challenges, especially when confronted with irrelevant features common in real-world problems. This work scrutinizes this limitation, particularly focusing on the Natural Evolution Strategies (NES) variant. We propose NESHT, a novel approach that integrates Hard-Thresholding (HT) with NES to champion sparsity, ensuring only pertinent features are employed. Backed by rigorous analysis and empirical tests, NESHT demonstrates its promise in mitigating the pitfalls of irrelevant features and shines in complex decision-making problems like noisy Mujoco and Atari tasks.
- Abstract(参考訳): Evolution Strategies (ES) はモデルレス強化学習の競争相手として登場し、Mujoco や Atari といったタスクにおける模範的なパフォーマンスを示している。
特に、それらは不完全な報酬関数を持つシナリオで輝き、高密度の報酬信号が取り除かれるような現実世界のアプリケーションでは重要ではない。
しかし、すべての入力特徴がタスク関連であるというES固有の仮定は、特に現実世界の問題に共通する無関係な特徴に直面している場合、課題を提起する。
この研究は、特に自然進化戦略(NES)の亜種に焦点を当てて、この制限を精査している。
本稿では,HT(Hard-Thresholding)とNESを統合したNESHTを提案する。
厳密な分析と実証テストによって支援されたNESHTは、無関係な機能の落とし穴を軽減し、ノイズの多いMujocoやAtariタスクのような複雑な意思決定問題に光を当てるという、その約束を実証している。
関連論文リスト
- Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Sample-Efficient Robust Multi-Agent Reinforcement Learning in the Face of Environmental Uncertainty [40.55653383218379]
本研究は,ロバストなマルコフゲーム(RMG)の学習に焦点を当てる。
ゲーム理論平衡の様々な概念の頑健な変種を学習するために,有限サンプルの複雑性を保証するサンプル効率モデルベースアルゴリズム(DRNVI)を提案する。
論文 参考訳(メタデータ) (2024-04-29T17:51:47Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - USHER: Unbiased Sampling for Hindsight Experience Replay [12.660090786323067]
報酬の希薄化は強化学習(RL)における長年の課題である
Hindsight Experience Replay (HER)は、ある目標に対して失敗した軌道を他の目標に対して成功した軌道として再利用することでこの問題に対処する。
この戦略は、環境における悪い結果の可能性を過小評価するため、バイアス値関数をもたらすことが知られている。
本稿では,決定論的環境における性能を犠牲にすることなく,この問題に対処する重要度に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-03T20:25:06Z) - Dealing with Sparse Rewards in Continuous Control Robotics via
Heavy-Tailed Policies [64.2210390071609]
本稿では,連続制御問題におけるスパース報酬の課題に対処するため,HT-PSG(Heavy-Tailed Policy Gradient)アルゴリズムを提案する。
高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-06-12T04:09:39Z) - Toward Certified Robustness Against Real-World Distribution Shifts [65.66374339500025]
我々は、データから摂動を学ぶために生成モデルを訓練し、学習したモデルの出力に関して仕様を定義する。
この設定から生じるユニークな挑戦は、既存の検証者がシグモイドの活性化を厳密に近似できないことである。
本稿では,古典的な反例誘導的抽象的洗練の概念を活用するシグモイドアクティベーションを扱うための一般的なメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-08T04:09:13Z) - Generalization of Neural Combinatorial Solvers Through the Lens of
Adversarial Robustness [68.97830259849086]
ほとんどのデータセットは単純なサブプロブレムのみをキャプチャし、おそらくは突発的な特徴に悩まされる。
本研究では, 局所的な一般化特性である対向ロバスト性について検討し, 厳密でモデル固有な例と突発的な特徴を明らかにする。
他のアプリケーションとは異なり、摂動モデルは知覚できないという主観的な概念に基づいて設計されているため、摂動モデルは効率的かつ健全である。
驚くべきことに、そのような摂動によって、十分に表現力のあるニューラルソルバは、教師あり学習で共通する正確さと悪質さのトレードオフの限界に悩まされない。
論文 参考訳(メタデータ) (2021-10-21T07:28:11Z) - Planning from Pixels in Environments with Combinatorially Hard Search
Spaces [14.897437359519456]
この分野での最近の関心の高まりは、アーケードゲームから連続制御に至るまでのタスクにおいて優れたパフォーマンスをもたらす進歩をもたらした。
本稿では,その環境を潜在グラフとして表現する方法を提案する。
提案手法は,低品質軌跡のみを提供するオフラインRLパラダイムにおいて,強い一般化を実現することを示す。
論文 参考訳(メタデータ) (2021-10-12T16:38:08Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。