論文の概要: Trust the Model When It Is Confident: Masked Model-based Actor-Critic
- arxiv url: http://arxiv.org/abs/2010.04893v1
- Date: Sat, 10 Oct 2020 03:39:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 23:19:38.407430
- Title: Trust the Model When It Is Confident: Masked Model-based Actor-Critic
- Title(参考訳): 自信のあるときにモデルを信頼する - Masked Model-based Actor-Critic
- Authors: Feiyang Pan, Jia He, Dandan Tu, Qing He
- Abstract要約: Masked Model-based Actor-Critic (M2AC)は、新しいポリシー最適化アルゴリズムである。
M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
- 参考スコア(独自算出の注目度): 11.675078067322897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is a popular belief that model-based Reinforcement Learning (RL) is more
sample efficient than model-free RL, but in practice, it is not always true due
to overweighed model errors. In complex and noisy settings, model-based RL
tends to have trouble using the model if it does not know when to trust the
model.
In this work, we find that better model usage can make a huge difference. We
show theoretically that if the use of model-generated data is restricted to
state-action pairs where the model error is small, the performance gap between
model and real rollouts can be reduced. It motivates us to use model rollouts
only when the model is confident about its predictions. We propose Masked
Model-based Actor-Critic (M2AC), a novel policy optimization algorithm that
maximizes a model-based lower-bound of the true value function. M2AC implements
a masking mechanism based on the model's uncertainty to decide whether its
prediction should be used or not. Consequently, the new algorithm tends to give
robust policy improvements. Experiments on continuous control benchmarks
demonstrate that M2AC has strong performance even when using long model
rollouts in very noisy environments, and it significantly outperforms previous
state-of-the-art methods.
- Abstract(参考訳): モデルベース強化学習(RL)はモデルフリーのRLよりもサンプリング効率が高いという認識が一般的であるが、実際には過度なモデルエラーのため必ずしも真実ではない。
複雑でノイズの多い環境では、モデルベースのrlは、モデルがいつ信頼するかを知らない場合、モデルの使用に苦労する傾向がある。
この研究で、より良いモデルの使用が大きな違いをもたらすことがわかりました。
モデル生成データの使用がモデルエラーの少ない状態-動作ペアに制限されている場合、モデルと実際のロールアウト間の性能ギャップを低減できることを理論的に示す。
モデルが予測に自信を持っている場合にのみ、モデルロールアウトを使用するモチベーションになります。
本稿では,真値関数のモデルベース下界を最大化するポリシ最適化アルゴリズムであるMasked Model-based Actor-Critic (M2AC)を提案する。
M2ACはモデルの不確実性に基づいてマスキング機構を実装し、その予測が使用されるかどうかを決定する。
その結果、新しいアルゴリズムは堅牢なポリシー改善をもたらす傾向にある。
連続制御ベンチマークの実験では、非常にノイズの多い環境で長いモデルロールアウトを使用する場合でも、m2acは強力なパフォーマンスを示す。
関連論文リスト
- Trust the Model Where It Trusts Itself -- Model-Based Actor-Critic with Uncertainty-Aware Rollout Adaption [4.664767161598515]
ダイナスタイルモデルベース強化学習(MBRL)はモデルベースロールアウトを通じてモデルフリーエージェントと予測遷移モデルを組み合わせる。
そこで本研究では,データ効率と性能の大幅な向上を図り,使い易いロールアウト機構を提案する。
論文 参考訳(メタデータ) (2024-05-29T11:53:07Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Induced Model Matching: How Restricted Models Can Help Larger Ones [1.7676816383911753]
制限された特徴を用いた非常に正確な予測モデルが、より大きく、フル機能の、モデルのトレーニング時に利用可能であるシナリオを考察する。
制限されたモデルは、フルモデルにどのように役立つのか?
本稿では,制約モデルと制約モデルの性能を一致させることで,制約モデルの知識をフルモデルに伝達する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:21:09Z) - Predictable MDP Abstraction for Unsupervised Model-Based RL [93.91375268580806]
予測可能なMDP抽象化(PMA)を提案する。
元のMDPで予測モデルを訓練する代わりに、学習されたアクション空間を持つ変換MDPでモデルを訓練する。
我々はPMAを理論的に解析し、PMAが以前の教師なしモデルベースRLアプローチよりも大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-02-08T07:37:51Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - Oracle Inequalities for Model Selection in Offline Reinforcement
Learning [105.74139523696284]
本稿では,値関数近似を用いたオフラインRLにおけるモデル選択の問題について検討する。
対数係数まで最小値の速度-最適不等式を実現するオフラインRLの最初のモデル選択アルゴリズムを提案する。
そこで本研究では,優れたモデルクラスを確実に選択できることを示す数値シミュレーションを行った。
論文 参考訳(メタデータ) (2022-11-03T17:32:34Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Model-based micro-data reinforcement learning: what are the crucial
model properties and which model to choose? [0.2836066255205732]
我々は,マイクロデータモデルに基づく強化学習(MBRL)に寄与する。
マルチモーダルな後続予測を必要とする環境では、混合密度ネットは他のモデルよりも大きなマージンで優れていることがわかった。
また、決定論的モデルは同等であり、実際、確率論的モデルよりも一貫して(非目立ったことではないが)優れていることも見出した。
論文 参考訳(メタデータ) (2021-07-24T11:38:25Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。