論文の概要: Model-based Policy Optimization using Symbolic World Model
- arxiv url: http://arxiv.org/abs/2407.13518v1
- Date: Thu, 18 Jul 2024 13:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 15:10:55.467276
- Title: Model-based Policy Optimization using Symbolic World Model
- Title(参考訳): 記号的世界モデルを用いたモデルに基づく政策最適化
- Authors: Andrey Gorodetskiy, Konstantin Mironov, Aleksandr Panov,
- Abstract要約: ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
- 参考スコア(独自算出の注目度): 46.42871544295734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The application of learning-based control methods in robotics presents significant challenges. One is that model-free reinforcement learning algorithms use observation data with low sample efficiency. To address this challenge, a prevalent approach is model-based reinforcement learning, which involves employing an environment dynamics model. We suggest approximating transition dynamics with symbolic expressions, which are generated via symbolic regression. Approximation of a mechanical system with a symbolic model has fewer parameters than approximation with neural networks, which can potentially lead to higher accuracy and quality of extrapolation. We use a symbolic dynamics model to generate trajectories in model-based policy optimization to improve the sample efficiency of the learning algorithm. We evaluate our approach across various tasks within simulated environments. Our method demonstrates superior sample efficiency in these tasks compared to model-free and model-based baseline methods.
- Abstract(参考訳): ロボット工学における学習に基づく制御手法の適用は、大きな課題を呈している。
1つは、モデルなし強化学習アルゴリズムがサンプル効率の低い観測データを使用することである。
この課題に対処するため、一般的なアプローチはモデルに基づく強化学習であり、環境力学モデルを採用する必要がある。
シンボリック回帰によって生成されるシンボリック表現による遷移ダイナミクスの近似を提案する。
記号モデルによる機械系の近似は、ニューラルネットワークによる近似よりもパラメータが少ないため、外挿の精度と品質が向上する可能性がある。
我々は,モデルに基づくポリシー最適化における軌道を生成するために,記号力学モデルを用いて学習アルゴリズムのサンプル効率を改善する。
シミュレーション環境における様々なタスクに対するアプローチを評価する。
本手法は,モデルフリーおよびモデルベースライン法と比較して,これらのタスクにおいて優れたサンプル効率を示す。
関連論文リスト
- Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Real-to-Sim: Predicting Residual Errors of Robotic Systems with Sparse
Data using a Learning-based Unscented Kalman Filter [65.93205328894608]
我々は,動的・シミュレータモデルと実ロボット間の残差を学習する。
学習した残差誤差により、動的モデル、シミュレーション、および実際のハードウェア間の現実的ギャップをさらに埋めることができることを示す。
論文 参考訳(メタデータ) (2022-09-07T15:15:12Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - DyNODE: Neural Ordinary Differential Equations for Dynamics Modeling in
Continuous Control [0.0]
本稿では,ニューラル常微分方程式の枠組みに制御を組み込むことにより,システムの基盤となる力学を捉える新しい手法を提案する。
以上の結果から,アクター批判強化学習アルゴリズムと組み合わせた単純なDyNODEアーキテクチャが,標準ニューラルネットワークより優れていることが示唆された。
論文 参考訳(メタデータ) (2020-09-09T12:56:58Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Learning Predictive Representations for Deformable Objects Using
Contrastive Estimation [83.16948429592621]
視覚表現モデルと動的モデルの両方を協調的に最適化する新しい学習フレームワークを提案する。
我々は,標準モデルに基づく学習手法をロープや布の操作スイートで大幅に改善した。
論文 参考訳(メタデータ) (2020-03-11T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。