論文の概要: Wasserstein Diversity-Enriched Regularizer for Hierarchical
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.00989v1
- Date: Wed, 2 Aug 2023 07:45:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:39:23.856828
- Title: Wasserstein Diversity-Enriched Regularizer for Hierarchical
Reinforcement Learning
- Title(参考訳): 階層的強化学習のためのwasserstein diversity-enriched regularizer
- Authors: Haorui Li, Jiaqi Liang, Linjing Li, and Daniel Zeng
- Abstract要約: We propose a novel task-agnostic regularizer called the Wasserstein Diversity-Enriched regularizer (WDER)。
提案するWDERは,既存手法の損失関数に容易に組み込むことができ,性能をさらに向上させることができる。
- 参考スコア(独自算出の注目度): 2.4236602474594635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical reinforcement learning composites subpolicies in different
hierarchies to accomplish complex tasks.Automated subpolicies discovery, which
does not depend on domain knowledge, is a promising approach to generating
subpolicies.However, the degradation problem is a challenge that existing
methods can hardly deal with due to the lack of consideration of diversity or
the employment of weak regularizers. In this paper, we propose a novel
task-agnostic regularizer called the Wasserstein Diversity-Enriched Regularizer
(WDER), which enlarges the diversity of subpolicies by maximizing the
Wasserstein distances among action distributions. The proposed WDER can be
easily incorporated into the loss function of existing methods to boost their
performance further.Experimental results demonstrate that our WDER improves
performance and sample efficiency in comparison with prior work without
modifying hyperparameters, which indicates the applicability and robustness of
the WDER.
- Abstract(参考訳): 階層的強化学習複合システム 複雑なタスクを達成するために異なる階層構造にあるサブポリシーズ ドメイン知識に依存しない自動サブポリシーズ発見は、サブポリシーズを生成するための有望なアプローチであるが、しかしながら、多様性の考慮の欠如や弱い正規化子の雇用のために、既存の方法に対処できない課題である。
本稿では,wasserstein diversity-enriched regularizer (wder) と呼ばれる新しいタスク非依存正規化器を提案する。
提案手法は, 提案手法の損失関数に容易に組み込むことにより, 性能をさらに向上させることができる。実験結果から, WDERは, ハイパーパラメータを変更することなく, 従来の作業と比較して性能と試料効率を向上し, WDERの適用性とロバスト性を示すことを示す。
関連論文リスト
- Finite-Time Analysis of On-Policy Heterogeneous Federated Reinforcement Learning [8.632943870358627]
フェデレート強化学習(FRL)は、強化学習タスクのサンプル複雑性を低減するための有望なパラダイムとして登場した。
本稿では,線形関数近似を用いた新しいオンライン強化学習手法であるFedSARSAを紹介する。
我々は,FedSARSAが,不均一性のレベルに比例して,すべてのエージェントに対してほぼ最適のポリシーに収束することを示す。
論文 参考訳(メタデータ) (2024-01-27T02:43:45Z) - Synergizing Quality-Diversity with Descriptor-Conditioned Reinforcement
Learning [4.787389127632926]
品質多様性最適化(Quality-Diversity Optimization)は進化的アルゴリズムの一種で、多種多様な高性能なソリューションのコレクションを生成する。
MAP-Elitesは、進化ロボティクスを含む様々な分野に適用された顕著な例である。
本研究は,(1)記述者条件付き評論家による多様度探索と勾配に基づく手法との整合性を考慮した政策グラディエント変動演算子を強化すること,(2)追加費用なしで記述者条件付き政策を学習するためにアクタ批判的訓練を活用すること,の3つの貢献を提示する。
論文 参考訳(メタデータ) (2023-12-10T19:53:15Z) - Promoting Generalization for Exact Solvers via Adversarial Instance
Augmentation [62.738582127114704]
Adarは、模倣学習ベース(ILベース)と強化学習ベース(RLベース)の両方の一般化を理解し、改善するためのフレームワークである。
論文 参考訳(メタデータ) (2023-10-22T03:15:36Z) - Semantically Aligned Task Decomposition in Multi-Agent Reinforcement
Learning [56.26889258704261]
我々は,MARL(SAMA)における意味的アライズされたタスク分解という,新しい「不整合」意思決定手法を提案する。
SAMAは、潜在的な目標を示唆し、適切な目標分解とサブゴールアロケーションを提供するとともに、自己回帰に基づくリプランニングを提供する、チェーン・オブ・シントによる事前訓練された言語モデルを促進する。
SAMAは, 最先端のASG法と比較して, 試料効率に有意な優位性を示す。
論文 参考訳(メタデータ) (2023-05-18T10:37:54Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。
本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。
経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文 参考訳(メタデータ) (2020-06-18T19:04:09Z) - Wasserstein Distance guided Adversarial Imitation Learning with Reward
Shape Exploration [21.870750931559915]
We propose a new algorithm called Wasserstein Distance guided Adrial Imitation Learning (WDAIL) for promote the performance of mimicion learning (IL)。
実験結果から,MuJoCoの複雑な連続制御タスクにおいて,学習手順は極めて安定であり,高い性能が得られた。
論文 参考訳(メタデータ) (2020-06-05T15:10:00Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。