論文の概要: Off-Policy Deep Reinforcement Learning with Analogous Disentangled
Exploration
- arxiv url: http://arxiv.org/abs/2002.10738v2
- Date: Thu, 27 Feb 2020 22:19:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:42:42.908110
- Title: Off-Policy Deep Reinforcement Learning with Analogous Disentangled
Exploration
- Title(参考訳): アナログ遠絡探索によるオフポリティディーディープ強化学習
- Authors: Anji Liu, Yitao Liang, Guy Van den Broeck
- Abstract要約: オフ政治強化学習(英: Off-policy reinforcement learning、RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。
前者の方針は報われているが、(ほとんどの場合、決定論的な)非表現的であり、後者の課題では、対照的に、ガイド付きかつ効果的な探索を提供する表現的政策が必要である。
本稿では,この問題を緩和するために,Analogous Disentangled Actor-Critic (ADAC)を提案する。
- 参考スコア(独自算出の注目度): 33.25932244741268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy reinforcement learning (RL) is concerned with learning a rewarding
policy by executing another policy that gathers samples of experience. While
the former policy (i.e. target policy) is rewarding but in-expressive (in most
cases, deterministic), doing well in the latter task, in contrast, requires an
expressive policy (i.e. behavior policy) that offers guided and effective
exploration. Contrary to most methods that make a trade-off between optimality
and expressiveness, disentangled frameworks explicitly decouple the two
objectives, which each is dealt with by a distinct separate policy. Although
being able to freely design and optimize the two policies with respect to their
own objectives, naively disentangling them can lead to inefficient learning or
stability issues. To mitigate this problem, our proposed method Analogous
Disentangled Actor-Critic (ADAC) designs analogous pairs of actors and critics.
Specifically, ADAC leverages a key property about Stein variational gradient
descent (SVGD) to constraint the expressive energy-based behavior policy with
respect to the target one for effective exploration. Additionally, an analogous
critic pair is introduced to incorporate intrinsic rewards in a principled
manner, with theoretical guarantees on the overall learning stability and
effectiveness. We empirically evaluate environment-reward-only ADAC on 14
continuous-control tasks and report the state-of-the-art on 10 of them. We
further demonstrate ADAC, when paired with intrinsic rewards, outperform
alternatives in exploration-challenging tasks.
- Abstract(参考訳): オフ政治強化学習(RL)は、経験のサンプルを収集する別の政策を実行することで報酬政策を学ぶことに関心がある。
前者の政策(すなわち目標政策)は報奨だが(多くの場合、決定論的な)表現力に富んでいるが、後者の作業では表現力のある政策(すなわち行動政策)が必要であり、指導的かつ効果的な探索を提供する。
最適性と表現力の間のトレードオフをするほとんどの方法とは対照的に、対立するフレームワークは2つの目的を明確に分離し、それぞれが別々の方針によって扱われる。
自分たちの目的に関して2つのポリシーを自由に設計し、最適化することができるが、それらを完全に切り離すことは、非効率な学習や安定性の問題につながる可能性がある。
この問題を軽減するために提案手法であるAnalogous Disentangled Actor-Critic (ADAC) はアクターと批評家の類似のペアを設計する。
特に、ADACはStein variational gradient descent (SVGD) に関する重要な特性を活用して、効率的な探索を行うための目標に対する表現的エネルギーベースの行動ポリシーを制約する。
さらに、本質的な報酬を原則的に取り入れ、全体的な学習安定性と効果を理論的に保証する類似の批評家ペアが導入された。
環境に配慮したADACを14タスクで実証的に評価し,その内10タスクについて報告した。
さらに,本質的な報酬と組み合わせたadacを,探索課題における代替案よりも優れていることを示す。
関連論文リスト
- Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Coherent Soft Imitation Learning [17.345411907902932]
模倣学習法は、政策の行動クローニング(BC)や報酬の逆強化学習(IRL)を通じて専門家から学ぶ。
この研究は、BCとIRLの両方の強度を捉える模倣法に由来する。
論文 参考訳(メタデータ) (2023-05-25T21:54:22Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Contrastive Explanations for Comparing Preferences of Reinforcement
Learning Agents [16.605295052893986]
報酬関数が単純でない複雑なタスクでは、報酬関数に対する個々の目的の影響を調整することで、多重強化学習(RL)ポリシーを訓練することができる。
この研究では、同じタスクで訓練された2つのポリシーの振る舞いを、目的において異なる好みで比較します。
本稿では,2つのRLエージェントの嗜好の相反する結果の相違から生じる行動の差異を識別する手法を提案する。
論文 参考訳(メタデータ) (2021-12-17T11:57:57Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Goal-Conditioned Reinforcement Learning with Imagined Subgoals [89.67840168694259]
我々は、複雑なタスクの学習を容易にするために、想像上のサブゴールをポリシー学習に組み込むことを提案する。
想像上のサブゴールは、政策と批判を同時に訓練する独立したハイレベルな政策によって予測される。
複雑なロボットナビゲーションと操作タスクに対する我々のアプローチを評価し、既存の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-07-01T15:30:59Z) - Learn Goal-Conditioned Policy with Intrinsic Motivation for Deep
Reinforcement Learning [9.014110264448371]
目的条件付き政策(GPIM)という新しい教師なし学習手法を提案する。
GPIMは抽象レベルポリシーと目標条件ポリシーの両方を共同で学習する。
提案したGPIM法の有効性と効率性を示す様々なロボットタスクの実験。
論文 参考訳(メタデータ) (2021-04-11T16:26:10Z) - Off-policy Evaluation in Infinite-Horizon Reinforcement Learning with
Latent Confounders [62.54431888432302]
無限水平エルゴードマルコフ決定過程におけるOPE問題について考察する。
我々は、状態と行動の潜在変数モデルのみを考慮すれば、政策値が政治外のデータから特定できることを示す。
論文 参考訳(メタデータ) (2020-07-27T22:19:01Z) - Efficient Evaluation of Natural Stochastic Policies in Offline
Reinforcement Learning [80.42316902296832]
行動政策から逸脱した観点から定義される自然政策の効果的な非政治的評価について検討する。
これは、ほとんどの著作が明示された政策の評価を考慮に入れている、政治外の評価に関する文献から逸脱している。
論文 参考訳(メタデータ) (2020-06-06T15:08:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。