論文の概要: Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.01096v3
- Date: Mon, 9 Nov 2020 09:54:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 05:57:05.890067
- Title: Invariant Policy Optimization: Towards Stronger Generalization in
Reinforcement Learning
- Title(参考訳): 不変政策最適化:強化学習におけるより強固な一般化に向けて
- Authors: Anoopkumar Sonar, Vincent Pacelli, and Anirudha Majumdar
- Abstract要約: 強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
- 参考スコア(独自算出の注目度): 5.476958867922322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge in reinforcement learning is to learn policies that
generalize beyond the operating domains experienced during training. In this
paper, we approach this challenge through the following invariance principle:
an agent must find a representation such that there exists an action-predictor
built on top of this representation that is simultaneously optimal across all
training domains. Intuitively, the resulting invariant policy enhances
generalization by finding causes of successful actions. We propose a novel
learning algorithm, Invariant Policy Optimization (IPO), that implements this
principle and learns an invariant policy during training. We compare our
approach with standard policy gradient methods and demonstrate significant
improvements in generalization performance on unseen domains for linear
quadratic regulator and grid-world problems, and an example where a robot must
learn to open doors with varying physical properties.
- Abstract(参考訳): 強化学習の基本的な課題は、訓練中に経験した操作領域を超えて一般化するポリシーを学ぶことである。
エージェントは、この表現の上に構築されたアクション予測器が存在し、同時に全ての訓練領域で最適であるような表現を見つけなければならない。
直感的には、結果として生じる不変ポリシーは、成功した行動の原因を見つけることによって一般化を促進する。
本稿では,この原則を実装した新しい学習アルゴリズムである不変ポリシー最適化(IPO)を提案し,トレーニング中に不変ポリシーを学習する。
本手法を標準的なポリシー勾配法と比較し,線形二次レギュレータとグリッドワールド問題に対する非シード領域の一般化性能と,ロボットが様々な物理特性を持つドアを開くことを学ばなければならない例を示す。
関連論文リスト
- Off-Dynamics Reinforcement Learning via Domain Adaptation and Reward Augmented Imitation [19.37193250533054]
本稿では、模擬学習を利用して、報酬修正から学んだポリシーを対象ドメインに転送することを提案する。
DARAIL(Domain Adaptation and Reward Augmented Imitation Learning)は,ドメイン適応のための報酬修正手法である。
論文 参考訳(メタデータ) (2024-11-15T02:35:20Z) - Randomized Adversarial Style Perturbations for Domain Generalization [49.888364462991234]
本稿では,RASP(Randomized Adversarial Style Perturbation)と呼ばれる新しい領域一般化手法を提案する。
提案アルゴリズムは, ランダムに選択されたクラスに対して, 対角方向の特徴のスタイルを乱し, 予期せぬ対象領域で観測される予期せぬスタイルに誤解されないよう, モデルを学習させる。
提案アルゴリズムは,様々なベンチマークによる広範な実験により評価され,特に大規模ベンチマークにおいて,領域一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2023-04-04T17:07:06Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Examining Policy Entropy of Reinforcement Learning Agents for Personalization Tasks [0.40964539027092917]
本研究は, パーソナライズ環境における強化学習システムの行動調査に焦点をあてる。
本研究では,これらのエントロピーの違いが採用される学習の種類に起因することを示すため,多種多様な数値実験と理論的正当性を提供する。
論文 参考訳(メタデータ) (2022-11-21T21:42:50Z) - Reinforcement learning based adaptive metaheuristics [5.254093731341154]
本稿では,最先端強化学習アルゴリズムに基づく連続領域メタヒューリスティックスにおけるパラメータ適応のための汎用フレームワークを提案する。
CMA-ES(Covariance Matrix Adaptation Evolution Strategies)とDE(differial Evolution)の2つのアルゴリズムにおけるこのフレームワークの適用性を示す。
論文 参考訳(メタデータ) (2022-06-24T12:01:49Z) - Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。
本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。
本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文 参考訳(メタデータ) (2022-02-11T18:08:02Z) - Towards an Understanding of Default Policies in Multitask Policy
Optimization [29.806071693039655]
近年の強化学習の成功の多くは、正規化ポリシー最適化(RPO)アルゴリズムによって推進されている。
このギャップを埋める第一歩として、デフォルトポリシーの品質と最適化の効果を正式にリンクします。
次に,高い性能保証を有するマルチタスク学習のための原理的RPOアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-11-04T16:45:15Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。