論文の概要: Dream to Explore: Adaptive Simulations for Autonomous Systems
- arxiv url: http://arxiv.org/abs/2110.14157v1
- Date: Wed, 27 Oct 2021 04:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 05:02:43.861810
- Title: Dream to Explore: Adaptive Simulations for Autonomous Systems
- Title(参考訳): dream to explore: 自律システムのための適応シミュレーション
- Authors: Zahra Sheikhbahaee, Dongshu Luo, Blake VanBerlo, S. Alex Yun, Adam
Safron, Jesse Hoey
- Abstract要約: ベイズ的非パラメトリック法を適用し,力学系制御の学習に挑戦する。
ガウス過程を用いて潜在世界力学を探索することにより、強化学習で観測される一般的なデータ効率の問題を緩和する。
本アルゴリズムは,ログの変動的下界を最適化することにより,世界モデルと政策を共同で学習する。
- 参考スコア(独自算出の注目度): 3.0664963196464448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One's ability to learn a generative model of the world without supervision
depends on the extent to which one can construct abstract knowledge
representations that generalize across experiences. To this end, capturing an
accurate statistical structure from observational data provides useful
inductive biases that can be transferred to novel environments. Here, we tackle
the problem of learning to control dynamical systems by applying Bayesian
nonparametric methods, which is applied to solve visual servoing tasks. This is
accomplished by first learning a state space representation, then inferring
environmental dynamics and improving the policies through imagined future
trajectories. Bayesian nonparametric models provide automatic model adaptation,
which not only combats underfitting and overfitting, but also allows the
model's unbounded dimension to be both flexible and computationally tractable.
By employing Gaussian processes to discover latent world dynamics, we mitigate
common data efficiency issues observed in reinforcement learning and avoid
introducing explicit model bias by describing the system's dynamics. Our
algorithm jointly learns a world model and policy by optimizing a variational
lower bound of a log-likelihood with respect to the expected free energy
minimization objective function. Finally, we compare the performance of our
model with the state-of-the-art alternatives for continuous control tasks in
simulated environments.
- Abstract(参考訳): 監督なしに世界の生成モデルを学ぶ能力は、経験を一般化する抽象的な知識表現を構築することができる程度に依存する。
この目的のために、観測データから正確な統計構造を捉えることは、新しい環境に転送できる有用な誘導バイアスを与える。
本稿では,視覚サーボタスクの解法としてベイズ非パラメトリック法を適用することで,力学系を制御するための学習の問題に取り組む。
これは、まず状態空間の表現を学習し、次に環境力学を推論し、将来の想像軌道を通じてポリシーを改善することで達成される。
ベイズ非パラメトリックモデルは自動的なモデル適応を提供するため、戦闘が不適合で過度に適合するだけでなく、モデルの非有界次元を柔軟かつ計算的に牽引できる。
潜時世界力学の発見にガウス過程を用いることで、強化学習で観測される共通データ効率問題を緩和し、システムの力学を記述することで明確なモデルバイアスを発生させない。
本アルゴリズムは, 期待自由エネルギー最小化目的関数に対して, 対数同値の変分下限を最適化することにより, 世界モデルと政策を共同で学習する。
最後に,本モデルの性能をシミュレーション環境における連続制御タスクの最先端の代替品と比較する。
関連論文リスト
- Model-based Policy Optimization using Symbolic World Model [46.42871544295734]
ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
論文 参考訳(メタデータ) (2024-07-18T13:49:21Z) - Efficient Imitation Learning with Conservative World Models [54.52140201148341]
報酬機能のない専門家によるデモンストレーションから政策学習の課題に取り組む。
純粋な強化学習ではなく、微調整問題として模倣学習を再構成する。
論文 参考訳(メタデータ) (2024-05-21T20:53:18Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Context-aware Dynamics Model for Generalization in Model-Based
Reinforcement Learning [124.9856253431878]
グローバルなダイナミクスモデルを学習するタスクを,(a)ローカルなダイナミクスをキャプチャするコンテキスト潜在ベクトルを学習し,(b)次に条件付き状態を予測するという2つの段階に分割する。
本研究では,コンテキスト潜在ベクトルに動的情報をエンコードするために,コンテキスト潜在ベクトルを前方と後方の両方のダイナミクスを予測するのに役立つような新しい損失関数を導入する。
提案手法は,既存のRL方式と比較して,様々なシミュレーションロボットや制御タスクの一般化能力に優れる。
論文 参考訳(メタデータ) (2020-05-14T08:10:54Z) - Planning from Images with Deep Latent Gaussian Process Dynamics [2.924868086534434]
計画は既知の環境力学の問題を制御するための強力なアプローチである。
未知の環境では、エージェントは計画を適用するためにシステムダイナミクスのモデルを学ぶ必要がある。
本稿では,環境と視覚的相互作用から低次元システムダイナミクスを学習する,遅延ガウス過程力学(DLGPD)モデルを提案する。
論文 参考訳(メタデータ) (2020-05-07T21:29:45Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。