論文の概要: Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic
- arxiv url: http://arxiv.org/abs/2112.10504v1
- Date: Thu, 16 Dec 2021 15:33:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-21 15:19:14.302653
- Title: Sample-Efficient Reinforcement Learning via Conservative Model-Based
Actor-Critic
- Title(参考訳): 保守モデルに基づくアクタ-クリティックによるサンプル効率強化学習
- Authors: Zhihai Wang, Jie Wang, Qi Zhou, Bin Li, Houqiang Li
- Abstract要約: モデルベース強化学習アルゴリズムは、モデルフリーのアルゴリズムよりもサンプル効率が高い。
本稿では,精度の高い学習モデルに強く依存することなく,高いサンプル効率を実現する新しい手法を提案する。
CMBACは,いくつかの課題に対して,サンプル効率の点で最先端のアプローチを著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 67.00475077281212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning algorithms, which aim to learn a model of
the environment to make decisions, are more sample efficient than their
model-free counterparts. The sample efficiency of model-based approaches relies
on whether the model can well approximate the environment. However, learning an
accurate model is challenging, especially in complex and noisy environments. To
tackle this problem, we propose the conservative model-based actor-critic
(CMBAC), a novel approach that achieves high sample efficiency without the
strong reliance on accurate learned models. Specifically, CMBAC learns multiple
estimates of the Q-value function from a set of inaccurate models and uses the
average of the bottom-k estimates -- a conservative estimate -- to optimize the
policy. An appealing feature of CMBAC is that the conservative estimates
effectively encourage the agent to avoid unreliable "promising actions" --
whose values are high in only a small fraction of the models. Experiments
demonstrate that CMBAC significantly outperforms state-of-the-art approaches in
terms of sample efficiency on several challenging tasks, and the proposed
method is more robust than previous methods in noisy environments.
- Abstract(参考訳): モデルに基づく強化学習アルゴリズムは、決定を下す環境のモデルを学習することを目的としており、モデルフリーのアルゴリズムよりもサンプル効率が高い。
モデルに基づくアプローチのサンプル効率は、モデルが環境をうまく近似できるかどうかに依存する。
しかしながら、特に複雑で騒がしい環境では、正確なモデルを学ぶことは困難である。
この問題に対処するために, 正確な学習モデルに強く依存することなく, 高いサンプル効率を実現する新しいアプローチである, 保守的モデルベースアクタ批判(CMBAC)を提案する。
具体的には、CMBACは不正確なモデルの集合からQ値関数の複数の推定を学習し、ボトムkの推定値(保守的な推定値)の平均を使ってポリシーを最適化する。
CMBACの魅力的な特徴は、保守的な見積は、エージェントが信頼できない「プロミングアクション」を避けることを効果的に促すことである。
実験により, cmbacはいくつかの課題タスクにおいてサンプル効率の点で最先端の手法を著しく上回っており, 提案手法はうるさい環境では従来の手法よりも頑健であることが示された。
関連論文リスト
- Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,繰り返しのトレーニングにおいて安定な機械学習モデルのシーケンスを見つける手法を提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
本手法は, 予測力の小さい, 制御可能な犠牲を伴い, 厳密に訓練されたモデルよりも強い安定性を示す。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Model predictive control-based value estimation for efficient reinforcement learning [6.8237783245324035]
データ駆動型アプローチにより環境をモデル化するモデル予測制御に基づく改良された強化学習手法を設計する。
学習した環境モデルに基づいて、値関数を推定し、ポリシーを最適化する多段階予測を行う。
本手法は, 学習効率の向上, 局所最適値に傾向のある戦略の収束速度の向上, 経験的再生バッファに必要なサンプル容量の削減を実現する。
論文 参考訳(メタデータ) (2023-10-25T13:55:14Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Optimizing Hyperparameters with Conformal Quantile Regression [7.316604052864345]
本稿では,観測ノイズについて最小限の仮定を行う等化量子レグレッションを活用することを提案する。
これは経験的ベンチマークでのHPO収束を早くすることを意味する。
論文 参考訳(メタデータ) (2023-05-05T15:33:39Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。