論文の概要: When to Update Your Model: Constrained Model-based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.08349v4
- Date: Wed, 8 Nov 2023 07:17:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 20:42:45.222332
- Title: When to Update Your Model: Constrained Model-based Reinforcement
Learning
- Title(参考訳): モデル更新のタイミング:制約付きモデルベース強化学習
- Authors: Tianying Ji, Yu Luo, Fuchun Sun, Mingxuan Jing, Fengxiang He, Wenbing
Huang
- Abstract要約: モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 50.74369835934703
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Designing and analyzing model-based RL (MBRL) algorithms with guaranteed
monotonic improvement has been challenging, mainly due to the interdependence
between policy optimization and model learning. Existing discrepancy bounds
generally ignore the impacts of model shifts, and their corresponding
algorithms are prone to degrade performance by drastic model updating. In this
work, we first propose a novel and general theoretical scheme for a
non-decreasing performance guarantee of MBRL. Our follow-up derived bounds
reveal the relationship between model shifts and performance improvement. These
discoveries encourage us to formulate a constrained lower-bound optimization
problem to permit the monotonicity of MBRL. A further example demonstrates that
learning models from a dynamically-varying number of explorations benefit the
eventual returns. Motivated by these analyses, we design a simple but effective
algorithm CMLO (Constrained Model-shift Lower-bound Optimization), by
introducing an event-triggered mechanism that flexibly determines when to
update the model. Experiments show that CMLO surpasses other state-of-the-art
methods and produces a boost when various policy optimization methods are
employed.
- Abstract(参考訳): 単調な改善が保証されたモデルベースRL(MBRL)アルゴリズムの設計と解析は、主にポリシー最適化とモデル学習の相互依存のために困難である。
既存の差分境界は一般的にモデルシフトの影響を無視し、対応するアルゴリズムは劇的なモデル更新によって性能を低下させる傾向がある。
本稿ではまず,MBRLの非劣化性能保証のための,新規で汎用的な理論スキームを提案する。
我々のフォローアップによる境界は、モデルシフトとパフォーマンス改善の関係を明らかにする。
これらの発見は、MBRLの単調性を保証するために制約付き下界最適化問題を定式化することを奨励する。
さらなる例では、動的に変動する数の探索からの学習モデルが結果のリターンに恩恵をもたらすことを示します。
これらの分析により,モデル更新のタイミングを柔軟に決定するイベントトリガー機構を導入することで,CMLO(Constrained Model-shift Lower-bound Optimization)を提案する。
実験により、CMLOは他の最先端の手法を超越し、様々なポリシー最適化手法が採用されている場合に向上することが示された。
関連論文リスト
- Task-optimal data-driven surrogate models for eNMPC via differentiable simulation and optimization [42.72938925647165]
特定の制御タスクにおいて最適な性能を示すために,クープマンシュロゲートモデルのエンドツーエンド学習法を提案する。
我々は,政策最適化を支援するために,力学シミュレーションモデルに基づく環境の潜在的な微分可能性を利用する訓練アルゴリズムを用いる。
論文 参考訳(メタデータ) (2024-03-21T14:28:43Z) - How to Fine-tune the Model: Unified Model Shift and Model Bias Policy
Optimization [13.440645736306267]
本稿ではモデルに基づく強化学習のためのアルゴリズムを開発する。
モデルシフトとモデルバイアスを統一し、微調整プロセスを定式化する。
これは、いくつかの挑戦的なベンチマークタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-22T07:27:32Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。