論文の概要: Reinforcement Learning using Guided Observability
- arxiv url: http://arxiv.org/abs/2104.10986v1
- Date: Thu, 22 Apr 2021 10:47:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:49:21.573752
- Title: Reinforcement Learning using Guided Observability
- Title(参考訳): ガイドオブザーバビリティを用いた強化学習
- Authors: Stephan Weigand, Pascal Klink, Jan Peters, Joni Pajarinen
- Abstract要約: 強化学習を部分的な可観測性に対処するためのシンプルで効率的なアプローチを提案します。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
離散部分可観測性Markov決定プロセス(POMDP)ベンチマーク問題および連続部分可観測性MuJoCoおよびOpenAIジムタスクにおける包括的な評価は、PO-GRLがパフォーマンスを向上させることを示しています。
- 参考スコア(独自算出の注目度): 26.307025803058714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to recent breakthroughs, reinforcement learning (RL) has demonstrated
impressive performance in challenging sequential decision-making problems.
However, an open question is how to make RL cope with partial observability
which is prevalent in many real-world problems. Contrary to contemporary RL
approaches, which focus mostly on improved memory representations or strong
assumptions about the type of partial observability, we propose a simple but
efficient approach that can be applied together with a wide variety of RL
methods. Our main insight is that smoothly transitioning from full
observability to partial observability during the training process yields a
high performance policy. The approach, called partially observable guided
reinforcement learning (PO-GRL), allows to utilize full state information
during policy optimization without compromising the optimality of the final
policy. A comprehensive evaluation in discrete partially observableMarkov
decision process (POMDP) benchmark problems and continuous partially observable
MuJoCo and OpenAI gym tasks shows that PO-GRL improves performance. Finally, we
demonstrate PO-GRL in the ball-in-the-cup task on a real Barrett WAM robot
under partial observability.
- Abstract(参考訳): 近年のブレークスルーにより、強化学習(RL)は、逐次決定問題に挑戦する際、顕著な性能を示した。
しかし、開放的な疑問は、RLが実世界の多くの問題でよく見られる部分可観測性にどう対処するかである。
改良されたメモリ表現や部分可観測性に関する強い仮定に主眼を置いている現代のRLアプローチとは対照的に,多種多様なRL手法とともに適用可能な単純かつ効率的なアプローチを提案する。
トレーニングプロセス中の完全な可観測性から部分可観測性へのスムーズな移行は、高いパフォーマンスポリシをもたらします。
半可観測型強化学習(po-grl)と呼ばれるこのアプローチは、最終的なポリシーの最適性を損なうことなく、ポリシー最適化中に完全な状態情報を利用することができる。
離散部分観測可能マルコフ決定プロセス (POMDP) のベンチマーク問題と連続部分観測可能 MuJoCo と OpenAI のジムタスクにおける総合的な評価は、PO-GRL が性能を向上させることを示している。
最後に,実バレットWAMロボットのボール・イン・ザ・カップ作業におけるPO-GRLを部分的に観察可能であることを示す。
関連論文リスト
- Exploiting Estimation Bias in Clipped Double Q-Learning for Continous Control Reinforcement Learning Tasks [5.968716050740402]
本稿では,連続制御タスクに対するアクター・クライブ法における推定バイアスの対処と活用に焦点を当てた。
RLエージェントのトレーニング中に最も有利な推定バイアスを動的に選択するためのBias Exploiting (BE) 機構を設計する。
多くの最先端のDeep RLアルゴリズムはBE機構を備えており、性能や計算の複雑さを妨げない。
論文 参考訳(メタデータ) (2024-02-14T10:44:03Z) - Blending Imitation and Reinforcement Learning for Robust Policy
Improvement [16.588397203235296]
イミテーション学習(Imitation Learning, IL)は、オークルを用いてサンプル効率を向上させる。
RPIはILの強みを生かし、オラクルクエリを使って探索を容易にする。
RPIは多様なブラックボックスのオラクルから学習し、改善することができる。
論文 参考訳(メタデータ) (2023-10-03T01:55:54Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - Hypernetworks for Zero-shot Transfer in Reinforcement Learning [21.994654567458017]
Hypernetworksは、目に見えないさまざまなタスク条件で振る舞いを生成するように訓練されている。
この研究はメタRL、文脈RL、伝達学習に関連している。
提案手法は,マルチタスクおよびメタRLアプローチによるベースラインの大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-28T15:48:35Z) - Light-weight probing of unsupervised representations for Reinforcement Learning [20.638410483549706]
線形探索が教師なしRL表現の品質評価の代行的タスクであるかどうかを検討する。
本稿では,Atari100kベンチマークにおける下流RL性能と,探索タスクが強く相関していることを示す。
これにより、事前学習アルゴリズムの空間を探索し、有望な事前学習レシピを特定するためのより効率的な方法が提供される。
論文 参考訳(メタデータ) (2022-08-25T21:08:01Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Pessimistic Model Selection for Offline Deep Reinforcement Learning [56.282483586473816]
深層強化学習(DRL)は多くのアプリケーションにおいてシーケンシャルな意思決定問題を解決する大きな可能性を示している。
主要な障壁の1つは、DRLが学んだ政策の一般化性の低下につながる過度に適合する問題である。
理論的保証のあるオフラインDRLに対する悲観的モデル選択(PMS)手法を提案する。
論文 参考訳(メタデータ) (2021-11-29T06:29:49Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit
Partial Observability [92.95794652625496]
総合化は強化学習システムの展開における中心的な課題である。
限られた訓練条件から検査条件を特定できないように一般化することは、暗黙的な部分観察可能性をもたらすことを示す。
我々は、RLにおける一般化の問題を、部分的に観察されたマルコフ決定過程の解法として再考した。
論文 参考訳(メタデータ) (2021-07-13T17:59:25Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。