論文の概要: Decoupling Value and Policy for Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.10330v1
- Date: Sat, 20 Feb 2021 12:40:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:19:21.097073
- Title: Decoupling Value and Policy for Generalization in Reinforcement Learning
- Title(参考訳): 強化学習における一般化の価値と政策の分離
- Authors: Roberta Raileanu, Rob Fergus
- Abstract要約: 我々は、最適なポリシーを学ぶよりも、価値関数を正確に見積もるためにより多くの情報が必要であると論じる。
IDAAC(Invariant Decoupled Advantage Actor-Critic)の2つのアプローチを提案します。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
- 参考スコア(独自算出の注目度): 20.08992844616678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard deep reinforcement learning algorithms use a shared representation
for the policy and value function. However, we argue that more information is
needed to accurately estimate the value function than to learn the optimal
policy. Consequently, the use of a shared representation for the policy and
value function can lead to overfitting. To alleviate this problem, we propose
two approaches which are combined to create IDAAC: Invariant Decoupled
Advantage Actor-Critic. First, IDAAC decouples the optimization of the policy
and value function, using separate networks to model them. Second, it
introduces an auxiliary loss which encourages the representation to be
invariant to task-irrelevant properties of the environment. IDAAC shows good
generalization to unseen environments, achieving a new state-of-the-art on the
Procgen benchmark and outperforming popular methods on DeepMind Control tasks
with distractors. Moreover, IDAAC learns representations, value predictions,
and policies that are more robust to aesthetic changes in the observations that
do not change the underlying state of the environment.
- Abstract(参考訳): 標準深層強化学習アルゴリズムは、ポリシーと値関数の共有表現を使用する。
しかし, 最適方針を学習するよりも, 価値関数を正確に推定するためには, より多くの情報が必要である。
したがって、ポリシーと値関数に対する共有表現の使用は、過度に適合する可能性がある。
この問題を解決するために、IDAACを作成するために結合された2つのアプローチを提案します。
まず、IDAACはポリシーと値関数の最適化を分離し、個別のネットワークを使ってモデル化する。
第二に、環境のタスク関連プロパティに不変であるように表現を奨励する補助損失を導入する。
IDAACは、目に見えない環境に良い一般化を示し、Procgenベンチマークで新しい最先端を実現し、イントラクタでDeepMind Controlタスクで一般的なメソッドを上回ります。
さらに、IDAACは、環境の基本的な状態を変えない観察の美的変化に対してより堅牢な表現、価値予測、ポリシーを学びます。
関連論文リスト
- Clipped-Objective Policy Gradients for Pessimistic Policy Optimization [3.2996723916635275]
政策勾配法は、政策出力の有界変化を通じて単調な改善を図っている。
本研究では,PPOの性能を連続的な作用空間に適用した場合,目的の単純変化によって一貫した改善が期待できることを示す。
PPO と PPO の両目標に比較して, COPG の目標が平均的な「悲観的」であること, 2) この悲観主義は探索を促進させることを示した。
論文 参考訳(メタデータ) (2023-11-10T03:02:49Z) - Invariant Causal Imitation Learning for Generalizable Policies [87.51882102248395]
Invariant Causal Learning (ICIL) を提案する。
ICILはノイズ変数の特定の表現から切り離された因果的特徴の表現を学習する。
ICILは、目に見えない環境に一般化可能な模倣ポリシーの学習に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:52:36Z) - Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。
データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。
本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-27T21:01:08Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Neural Network Compatible Off-Policy Natural Actor-Critic Algorithm [16.115903198836694]
既存のデータから最適な行動を学ぶことは、強化学習(RL)における最も重要な問題の1つである。
エージェントの目的は、与えられたポリシー(行動ポリシーとして知られる)から得られたデータに基づいて最適なポリシーを計算することである。
本研究は,非政治行動と自然政策勾配を扱うために状態-行動分布補正を利用する,非政治的自然なアクター-批判的アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-19T14:36:45Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients [54.98496284653234]
報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。
本稿では, 感性状態と行動の相互情報に基づく正則化器を導入することで, この問題を解決する。
プライバシ制約のあるポリシーを最適化するためのモデルベース推定器を開発した。
論文 参考訳(メタデータ) (2020-12-30T03:22:35Z) - What About Inputing Policy in Value Function: Policy Representation and
Policy-extended Value Function Approximator [39.287998861631]
強化学習(RL)における政策拡張価値関数近似器(PeVFA)について検討する。
我々は,PeVFAが提供する一般化値の推定値が,初期近似誤差を連続ポリシーの真値に低下させる可能性があることを示す。
本稿ではRLポリシーの表現学習フレームワークを提案し、ポリシーネットワークパラメータや状態-作用ペアから効果的なポリシー埋め込みを学習するためのいくつかのアプローチを提供する。
論文 参考訳(メタデータ) (2020-10-19T14:09:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。