論文の概要: Improving Generalization of Reinforcement Learning with Minimax
Distributional Soft Actor-Critic
- arxiv url: http://arxiv.org/abs/2002.05502v2
- Date: Wed, 30 Sep 2020 07:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 09:52:59.012215
- Title: Improving Generalization of Reinforcement Learning with Minimax
Distributional Soft Actor-Critic
- Title(参考訳): 極小分布型ソフトアクターによる強化学習の一般化
- Authors: Yangang Ren, Jingliang Duan, Shengbo Eben Li, Yang Guan and Qi Sun
- Abstract要約: 本稿では,RLアルゴリズムの一般化能力を向上させるために,ミニマックスの定式化と分散フレームワークを提案する。
我々は交差点における自動運転車の意思決定タスクに本手法を実装し,異なる環境下で訓練された政策を検証した。
- 参考スコア(独自算出の注目度): 11.601356612579641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has achieved remarkable performance in numerous
sequential decision making and control tasks. However, a common problem is that
learned nearly optimal policy always overfits to the training environment and
may not be extended to situations never encountered during training. For
practical applications, the randomness of environment usually leads to some
devastating events, which should be the focus of safety-critical systems such
as autonomous driving. In this paper, we introduce the minimax formulation and
distributional framework to improve the generalization ability of RL algorithms
and develop the Minimax Distributional Soft Actor-Critic (Minimax DSAC)
algorithm. Minimax formulation aims to seek optimal policy considering the most
severe variations from environment, in which the protagonist policy maximizes
action-value function while the adversary policy tries to minimize it.
Distributional framework aims to learn a state-action return distribution, from
which we can model the risk of different returns explicitly, thereby
formulating a risk-averse protagonist policy and a risk-seeking adversarial
policy. We implement our method on the decision-making tasks of autonomous
vehicles at intersections and test the trained policy in distinct environments.
Results demonstrate that our method can greatly improve the generalization
ability of the protagonist agent to different environmental variations.
- Abstract(参考訳): 強化学習(rl)は、多くの逐次的意思決定と制御タスクで顕著なパフォーマンスを達成している。
しかし、一般的な問題は、学習されたほぼ最適なポリシーが常にトレーニング環境に適合し、トレーニング中に遭遇したことのない状況にまで拡張されないことである。
実用的な用途では、環境のランダム性は、通常、破壊的な事象を招き、自動運転のような安全クリティカルなシステムの焦点となる。
本稿では,rlアルゴリズムの一般化能力を向上させるための minimax 定式化と分散フレームワークを導入し,minimax 分散ソフトアクタ-クリティック (minimax dsac) アルゴリズムを開発した。
ミニマックスの定式化は、敵の政策が最小化しようとする間、主人公の政策が行動価値関数を最大化する環境からの最も厳しい変化を考慮した最適政策を求めることを目的としている。
分散フレームワークは、異なるリターンのリスクを明示的にモデル化し、リスク回避のプロタゴニストポリシーとリスクを探索する敵政策を定式化できる状態-アクションのリターン分布を学習することを目的としている。
交差点における自動運転車の意思決定タスクに本手法を適用し,異なる環境下で訓練されたポリシーをテストする。
その結果, 本手法は, プロタゴニスト剤の一般化能力を大幅に向上させ, 環境変動を緩和できることを示した。
関連論文リスト
- Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。
ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文 参考訳(メタデータ) (2024-10-22T09:29:53Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - CAMEO: Curiosity Augmented Metropolis for Exploratory Optimal Policies [62.39667564455059]
最適政策の分布を考察し研究する。
実験シミュレーションでは、CAMEOは古典的な制御問題を全て解決するポリシーを実際に得ることを示した。
さらに,本論文では,異なるリスクプロファイルを示す異なるポリシーを,解釈可能性に関する興味深い実践的応用に対応して提示する。
論文 参考訳(メタデータ) (2022-05-19T09:48:56Z) - Minimizing Safety Interference for Safe and Comfortable Automated
Driving with Distributional Reinforcement Learning [3.923354711049903]
そこで本稿では,望ましい快適さと実用性に基づいて,実行時の保守性レベルを調整可能な適応ポリシーを学習するための分散強化学習フレームワークを提案する。
提案アルゴリズムは,認識ノイズが2倍高い場合にも信頼性を向上できるポリシを学習し,非閉塞交差点における自動マージと踏切の訓練構成を示す。
論文 参考訳(メタデータ) (2021-07-15T13:36:55Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - DisCo RL: Distribution-Conditioned Reinforcement Learning for
General-Purpose Policies [116.12670064963625]
分散条件強化学習(DisCo RL)と呼ばれるオフポリシーアルゴリズムを開発し、コンテキストポリシーを効率的に学習します。
DisCo RLをさまざまなロボット操作タスクで評価し、新しい目標分布への一般化を必要とするタスクの以前の方法を大幅に上回っていることを発見しました。
論文 参考訳(メタデータ) (2021-04-23T16:51:58Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Bayesian Robust Optimization for Imitation Learning [34.40385583372232]
逆強化学習は、パラメータ化された報酬関数を学習することにより、新しい状態への一般化を可能にする。
既存のIRLに基づく安全な模倣学習アプローチは、maxminフレームワークを使用してこの不確実性に対処する。
BROILは、リターン最大化とリスク最小化の動作を補間する自然な方法を提供する。
論文 参考訳(メタデータ) (2020-07-24T01:52:11Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Improving Robustness via Risk Averse Distributional Reinforcement
Learning [13.467017642143581]
実環境ではなくシミュレーションでポリシーが訓練される場合、ロバスト性は重要である。
本研究では,シミュレーショントレーニングと実世界の実装のギャップを埋めるため,ロバストなポリシーを学習するためのリスク認識アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-01T20:03:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。