論文の概要: Model predictive control-based value estimation for efficient
reinforcement learning
- arxiv url: http://arxiv.org/abs/2310.16646v1
- Date: Wed, 25 Oct 2023 13:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 14:33:51.233603
- Title: Model predictive control-based value estimation for efficient
reinforcement learning
- Title(参考訳): 効率的な強化学習のためのモデル予測制御に基づく値推定
- Authors: Qizhen Wu and Kexin Liu and Lei Chen
- Abstract要約: データ駆動型アプローチにより環境をモデル化するモデル予測制御に基づく改良された強化学習手法を設計する。
学習した環境モデルに基づいて、価値関数を推定し、ポリシーを最適化する多段階予測を行う。
本手法は, 学習効率の向上, 最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
- 参考スコア(独自算出の注目度): 7.669242992713961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning suffers from limitations in real practices primarily
due to the numbers of required interactions with virtual environments. It
results in a challenging problem that we are implausible to obtain an optimal
strategy only with a few attempts for many learning method. Hereby, we design
an improved reinforcement learning method based on model predictive control
that models the environment through a data-driven approach. Based on learned
environmental model, it performs multi-step prediction to estimate the value
function and optimize the policy. The method demonstrates higher learning
efficiency, faster convergent speed of strategies tending to the optimal value,
and fewer sample capacity space required by experience replay buffers.
Experimental results, both in classic databases and in a dynamic obstacle
avoidance scenario for unmanned aerial vehicle, validate the proposed
approaches.
- Abstract(参考訳): 強化学習は、主に仮想環境との必要な相互作用の数によって、実際のプラクティスの制限に悩まされる。
その結果,多くの学習手法を試行すれば,最適な戦略を得ることができないという難題が生じた。
本研究では,データ駆動アプローチによって環境をモデル化するモデル予測制御に基づく強化学習法を考案する。
学習環境モデルに基づき、価値関数を推定し、ポリシーを最適化するために多段階予測を行う。
本手法は, 学習効率の向上, 最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
実験結果は,従来のデータベースと無人航空機の動的障害物回避シナリオの両方において,提案手法の有効性を検証した。
関連論文リスト
- Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL [39.58890668062184]
ロールアウト長をメタレベルのシーケンシャルな意思決定問題としてチューニングする問題について検討する。
メタレベル決定問題の解決にはモデルフリーの深層強化学習を用いる。
論文 参考訳(メタデータ) (2022-06-06T06:25:11Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic [67.00475077281212]
モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-12-16T15:33:11Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Double Meta-Learning for Data Efficient Policy Optimization in
Non-Stationary Environments [12.45281856559346]
我々は、マルチタスク学習問題とみなすことができる非定常環境の学習モデルに興味を持っている。
モデルなし強化学習アルゴリズムは、広範囲なサンプリングを犠牲にしてマルチタスク学習において優れた性能を達成することができる。
モデルベースのアプローチは最もデータ効率のよい学習アルゴリズムの1つだが、それでも複雑なタスクやモデルの不確実性に苦慮している。
論文 参考訳(メタデータ) (2020-11-21T03:19:35Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Domain Knowledge Integration By Gradient Matching For Sample-Efficient
Reinforcement Learning [0.0]
本研究では,モデルフリー学習者を支援するために,ダイナミックスからの目標勾配情報を活用することで,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。
本稿では,モデルに基づく学習者からの勾配情報と,抽象的な低次元空間におけるモデル自由成分とをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-28T05:02:47Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。