論文の概要: Reinforcement Learning under Partial Observability Guided by Learned
Environment Models
- arxiv url: http://arxiv.org/abs/2206.11708v1
- Date: Thu, 23 Jun 2022 13:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 13:18:20.174788
- Title: Reinforcement Learning under Partial Observability Guided by Learned
Environment Models
- Title(参考訳): 学習環境モデルによる部分観測可能性に基づく強化学習
- Authors: Edi Muskardin, Martin Tappler, Bernhard K. Aichernig, Ingo Pill
- Abstract要約: 本稿では,部分観測可能な環境における強化学習(RL)のアプローチを提案する。
提案手法は,マルコフ決定過程の学習方法であるIoAlergiaとQ-ラーニングを組み合わせたものである。
本稿では,6つの最先端深部RL技術と比較して,本手法の有効性と有望な性能について報告する。
- 参考スコア(独自算出の注目度): 1.1470070927586016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In practical applications, we can rarely assume full observability of a
system's environment, despite such knowledge being important for determining a
reactive control system's precise interaction with its environment. Therefore,
we propose an approach for reinforcement learning (RL) in partially observable
environments. While assuming that the environment behaves like a partially
observable Markov decision process with known discrete actions, we assume no
knowledge about its structure or transition probabilities.
Our approach combines Q-learning with IoAlergia, a method for learning Markov
decision processes (MDP). By learning MDP models of the environment from
episodes of the RL agent, we enable RL in partially observable domains without
explicit, additional memory to track previous interactions for dealing with
ambiguities stemming from partial observability. We instead provide RL with
additional observations in the form of abstract environment states by
simulating new experiences on learned environment models to track the explored
states. In our evaluation, we report on the validity of our approach and its
promising performance in comparison to six state-of-the-art deep RL techniques
with recurrent neural networks and fixed memory.
- Abstract(参考訳): 実際の応用では、反応制御システムの環境との正確な相互作用を決定する上で重要な知識にもかかわらず、システムの環境の完全な可観測性を仮定することはめったにない。
そこで本稿では,部分観測可能な環境における強化学習(RL)のアプローチを提案する。
環境が部分的に観察可能なマルコフ決定プロセスのように振る舞うことを仮定するが、その構造や遷移確率についての知識は想定しない。
提案手法は,マルコフ決定過程(MDP)の学習方法であるIoAlergiaとQ-ラーニングを組み合わせたものである。
RL エージェントのエピソードから環境の MDP モデルを学習することにより、部分可観測性から生じるあいまいさに対処するために、明示的で追加的なメモリを使用せずに、部分可観測領域での RL を可能にする。
その代わり、学習環境モデルの新たな経験をシミュレートして探索した状態を追跡することで、rlに抽象環境状態という形で追加の観察を提供する。
本評価では,ニューラルネットワークと固定メモリを用いた6つの最先端深部RL技術と比較して,本手法の有効性と有望な性能について報告する。
関連論文リスト
- OCMDP: Observation-Constrained Markov Decision Process [9.13947446878397]
我々は、コスト感受性環境における観察と制御戦略を同時に学習する課題に取り組む。
我々は,ポリシーのセンシングと制御を分離する反復的,モデルなしの深層強化学習アルゴリズムを開発した。
本研究は,HeartPoleを用いたシミュレートされた診断課題と現実的な医療環境に対するアプローチを検証する。
論文 参考訳(メタデータ) (2024-11-11T16:04:49Z) - ODE-based Recurrent Model-free Reinforcement Learning for POMDPs [15.030970899252601]
我々は,POMDPを解くために,新しいODEベースのリカレントモデルとモデルレス強化学習フレームワークを組み合わせる。
様々なPO連続制御タスクとメタRLタスクにまたがる手法の有効性を実験的に実証した。
提案手法は,不規則にサンプリングされた時系列をモデル化するODEの能力のため,不規則な観測に対して頑健であることを示す。
論文 参考訳(メタデータ) (2023-09-25T12:13:56Z) - Conditional Kernel Imitation Learning for Continuous State Environments [9.750698192309978]
条件付きカーネル密度推定に基づく新しい模倣学習フレームワークを提案する。
我々は、多くの最先端ILアルゴリズムよりも一貫して優れた経験的性能を示す。
論文 参考訳(メタデータ) (2023-08-24T05:26:42Z) - Learning Environment Models with Continuous Stochastic Dynamics [0.0]
本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
論文 参考訳(メタデータ) (2023-06-29T12:47:28Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Active Inference and Reinforcement Learning: A unified inference on continuous state and action spaces under partial observability [19.56438470022024]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - Provably Efficient Reinforcement Learning in Partially Observable
Dynamical Systems [97.12538243736705]
関数近似を用いた部分観測可能力学系の強化学習について検討する。
本稿では,POMDP,LQG,予測状態表現 (Predictive State Representations,PSR) などのモデルや,POMDPのHilbert Space Embeddingsや観測可能なPOMDPを遅延低ランク遷移で組み込むことのできる,汎用的な新しいテクスタイト(Partially Observar Bilinear Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-24T00:27:42Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Provable RL with Exogenous Distractors via Multistep Inverse Dynamics [85.52408288789164]
実世界の強化学習(RL)の応用は、メガピクセルカメラから生成されたような高次元の観察にエージェントが対処する必要がある。
従来の研究は表現学習でこのような問題に対処しており、エージェントは生の観察から内因性、潜伏状態の情報を確実に抽出することができる。
しかし、このような手法は観測において時間的に相関するノイズの存在下では失敗する可能性がある。
論文 参考訳(メタデータ) (2021-10-17T15:21:27Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Invariant Causal Prediction for Block MDPs [106.63346115341862]
環境全体にわたる一般化は、実世界の課題への強化学習アルゴリズムの適用の成功に不可欠である。
本稿では,多環境環境における新しい観測を一般化するモデル不適合状態抽象化(MISA)を学習するための不変予測法を提案する。
論文 参考訳(メタデータ) (2020-03-12T21:03:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。