論文の概要: Group Distributionally Robust Reinforcement Learning with Hierarchical
Latent Variables
- arxiv url: http://arxiv.org/abs/2210.12262v1
- Date: Fri, 21 Oct 2022 21:34:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:04:30.464454
- Title: Group Distributionally Robust Reinforcement Learning with Hierarchical
Latent Variables
- Title(参考訳): 階層的潜在変数を用いた群分布ロバスト強化学習
- Authors: Mengdi Xu, Peide Huang, Yaru Niu, Visak Kumar, Jielin Qiu, Chao Fang,
Kuan-Hui Lee, Xuewei Qi, Henry Lam, Bo Li, Ding Zhao
- Abstract要約: Group Distributionally Robust Markov Decision Process (GDR-MDP) は、潜在混合モデルを介してタスク群を符号化する柔軟な階層型 MDP の定式化である。
GDR-MDPは、タスクグループに対する最悪の有資格信念の下で、期待されるリターンを最大化する最適なポリシーを特定する。
そこで我々は,GDR-MDPにおける値ベースおよびポリシーベースのRL手法の深部RLアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 20.078557260741988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One key challenge for multi-task Reinforcement learning (RL) in practice is
the absence of task indicators. Robust RL has been applied to deal with task
ambiguity, but may result in over-conservative policies. To balance the
worst-case (robustness) and average performance, we propose Group
Distributionally Robust Markov Decision Process (GDR-MDP), a flexible
hierarchical MDP formulation that encodes task groups via a latent mixture
model. GDR-MDP identifies the optimal policy that maximizes the expected return
under the worst-possible qualified belief over task groups within an ambiguity
set. We rigorously show that GDR-MDP's hierarchical structure improves
distributional robustness by adding regularization to the worst possible
outcomes. We then develop deep RL algorithms for GDR-MDP for both value-based
and policy-based RL methods. Extensive experiments on Box2D control tasks,
MuJoCo benchmarks, and Google football platforms show that our algorithms
outperform classic robust training algorithms across diverse environments in
terms of robustness under belief uncertainties. Demos are available on our
project page (\url{https://sites.google.com/view/gdr-rl/home}).
- Abstract(参考訳): マルチタスク強化学習(RL)の実践における重要な課題は,タスクインジケータの欠如である。
ロバスト RL はタスクのあいまいさに対処するために適用されてきたが、過保守なポリシーをもたらす可能性がある。
最悪ケース(ロバスト性)と平均性能のバランスをとるために,潜時混合モデルを用いてタスク群を符号化する柔軟な階層型MDP式であるグループ分散ロバストマルコフ決定プロセス(GDR-MDP)を提案する。
GDR-MDPは、あいまいさセット内のタスクグループに対する最悪の有資格信念の下で、期待されるリターンを最大化する最適なポリシーを特定する。
我々は,GDR-MDPの階層構造が,最悪の結果に正規化を加えることにより,分布のロバスト性を向上させることを示す。
そこで我々は,GDR-MDPにおける値ベースおよびポリシーベースのRL手法の深部RLアルゴリズムを開発した。
Box2Dコントロールタスク、MuJoCoベンチマーク、Googleのフットボールプラットフォームに関する大規模な実験によると、我々のアルゴリズムは、信念の不確実性の下での堅牢性の観点から、様々な環境における古典的な堅牢なトレーニングアルゴリズムよりも優れています。
デモはプロジェクトのページで閲覧できます(\url{https://sites.google.com/view/gdr-rl/home})。
関連論文リスト
- On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Efficient Policy Iteration for Robust Markov Decision Processes via
Regularization [49.05403412954533]
ロバストな意思決定プロセス(MDP)は、システムのダイナミクスが変化している、あるいは部分的にしか知られていない決定問題をモデル化するためのフレームワークを提供する。
最近の研究は、長方形長方形の$L_p$頑健なMDPと正規化されたMDPの等価性を確立し、標準MDPと同じレベルの効率を享受する規則化されたポリシー反復スキームを導出した。
本研究では、政策改善のステップに焦点をあて、欲求政策と最適なロバストなベルマン作用素のための具体的な形式を導出する。
論文 参考訳(メタデータ) (2022-05-28T04:05:20Z) - Robust Entropy-regularized Markov Decision Processes [23.719568076996662]
本稿では,ER-MDPモデルのロバストバージョンについて検討する。
我々は, ER-MDPと頑健な非正規化MDPモデルに係わる重要な特性も設定に保たれることを示す。
私たちは、我々のフレームワークと結果を、価値や(修正された)ポリシーを含む異なるアルゴリズムのスキームに統合する方法を示します。
論文 参考訳(メタデータ) (2021-12-31T09:50:46Z) - Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。
我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。
我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文 参考訳(メタデータ) (2021-12-28T12:12:57Z) - Twice regularized MDPs and the equivalence between robustness and
regularization [65.58188361659073]
報酬を損なうMDPのポリシーイテレーションは、正規化MDPと同じ時間複雑性を持つことを示す。
正規化MDPを2倍の正規化MDPに一般化する。
論文 参考訳(メタデータ) (2021-10-12T18:33:45Z) - Policy Information Capacity: Information-Theoretic Measure for Task
Complexity in Deep Reinforcement Learning [83.66080019570461]
課題の難易度について,環境にとらわれない,アルゴリズムにとらわれない2つの定量的指標を提案する。
これらの指標は、様々な代替案よりも、正規化タスク可解性スコアとの相関が高いことを示す。
これらのメトリクスは、鍵設計パラメータの高速かつ計算効率の良い最適化にも使用できる。
論文 参考訳(メタデータ) (2021-03-23T17:49:50Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。