論文の概要: Learning Environment Models with Continuous Stochastic Dynamics
- arxiv url: http://arxiv.org/abs/2306.17204v1
- Date: Thu, 29 Jun 2023 12:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 14:21:22.015888
- Title: Learning Environment Models with Continuous Stochastic Dynamics
- Title(参考訳): 連続確率ダイナミクスを用いた学習環境モデル
- Authors: Martin Tappler and Edi Mu\v{s}kardin and Bernhard K. Aichernig and
Bettina K\"onighofer
- Abstract要約: 本研究では,エージェントの制御下での環境行動のオートマトンモデルを学ぶことによって,エージェントが直面する決定に対する洞察を提供することを目的とする。
本研究では,複雑で連続的な力学を持つ環境のモデルを学習できるように,自動学習の能力を高める。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Solving control tasks in complex environments automatically through learning
offers great potential. While contemporary techniques from deep reinforcement
learning (DRL) provide effective solutions, their decision-making is not
transparent. We aim to provide insights into the decisions faced by the agent
by learning an automaton model of environmental behavior under the control of
an agent. However, for most control problems, automata learning is not scalable
enough to learn a useful model. In this work, we raise the capabilities of
automata learning such that it is possible to learn models for environments
that have complex and continuous dynamics.
The core of the scalability of our method lies in the computation of an
abstract state-space representation, by applying dimensionality reduction and
clustering on the observed environmental state space. The stochastic
transitions are learned via passive automata learning from observed
interactions of the agent and the environment. In an iterative model-based RL
process, we sample additional trajectories to learn an accurate environment
model in the form of a discrete-state Markov decision process (MDP). We apply
our automata learning framework on popular RL benchmarking environments in the
OpenAI Gym, including LunarLander, CartPole, Mountain Car, and Acrobot. Our
results show that the learned models are so precise that they enable the
computation of policies solving the respective control tasks. Yet the models
are more concise and more general than neural-network-based policies and by
using MDPs we benefit from a wealth of tools available for analyzing them. When
solving the task of LunarLander, the learned model even achieved similar or
higher rewards than deep RL policies learned with stable-baselines3.
- Abstract(参考訳): 複雑な環境における制御タスクを学習を通じて自動的に解決することは大きな可能性を秘めている。
深層強化学習(DRL)による現代技術は効果的な解法を提供するが、その決定は透明ではない。
エージェントの制御下での環境行動のオートマトンモデルを学ぶことにより,エージェントが直面する意思決定に対する洞察を提供することを目的とする。
しかし、ほとんどの制御問題では、自動学習は有用なモデルを学ぶのに十分ではない。
本研究では,複雑で連続的なダイナミクスを持つ環境のモデルを学ぶことができるように,自動学習の能力を高める。
本手法のスケーラビリティのコアは,観測された環境空間に次元的縮小とクラスタリングを適用することで,抽象的な状態空間表現の計算にある。
確率遷移は、エージェントと環境の観察された相互作用から受動的オートマトン学習によって学習される。
反復モデルに基づくRLプロセスでは、離散状態マルコフ決定プロセス(MDP)の形式で正確な環境モデルを学ぶために追加の軌道をサンプリングする。
我々は,LunarLander,CartPole,Mountain Car,Acrobotなど,OpenAI GymのRLベンチマーク環境に自動学習フレームワークを適用した。
その結果,学習したモデルが非常に正確であることから,各制御タスクを解くポリシーの計算を可能にした。
しかし、モデルはニューラルネットワークベースのポリシーよりも簡潔で汎用的であり、MDPを使用することで、分析に利用可能な豊富なツールの恩恵を受けることができる。
LunarLanderのタスクを解くとき、学習モデルは、安定したベースライン3で学んだ深いRLポリシーよりも、類似または高い報酬を達成さえした。
関連論文リスト
- SOLD: Reinforcement Learning with Slot Object-Centric Latent Dynamics [16.020835290802548]
Slot-Attention for Object-centric Latent Dynamicsは、画素入力からオブジェクト中心の動的モデルを学ぶ新しいアルゴリズムである。
構造化潜在空間は、モデル解釈可能性を改善するだけでなく、振る舞いモデルが推論する価値のある入力空間も提供することを実証する。
以上の結果から,SOLDは,最先端のモデルベースRLアルゴリズムであるDreamerV3よりも,さまざまなベンチマークロボット環境において優れていた。
論文 参考訳(メタデータ) (2024-10-11T14:03:31Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Meta-Reinforcement Learning for Adaptive Control of Second Order Systems [3.131740922192114]
プロセス制御では、多くのシステムは類似しており、よく理解されているダイナミクスを持ち、メタ学習を通じて一般化可能なコントローラを作成することは可能であることを示唆している。
本稿では,メタ強化学習(meta-RL)制御戦略を定式化し,モデル構造などのトレーニングにおいて,既知のオフライン情報を活用する。
重要な設計要素は、トレーニング中にモデルベースの情報をオフラインで利用し、新しい環境と対話するためのモデルフリーのポリシー構造を維持することである。
論文 参考訳(メタデータ) (2022-09-19T18:51:33Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Dream to Explore: Adaptive Simulations for Autonomous Systems [3.0664963196464448]
ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
論文 参考訳(メタデータ) (2021-10-27T04:27:28Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Online Constrained Model-based Reinforcement Learning [13.362455603441552]
主要な要件は、限られた時間とリソース予算内に留まりながら、継続的な状態とアクションスペースを扱う能力である。
本稿では,ガウス過程回帰と回帰水平制御を組み合わせたモデルに基づくアプローチを提案する。
本研究では,自動走行作業におけるオンライン学習のメリットを実証する。
論文 参考訳(メタデータ) (2020-04-07T15:51:34Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。