論文の概要: Is Model Ensemble Necessary? Model-based RL via a Single Model with
Lipschitz Regularized Value Function
- arxiv url: http://arxiv.org/abs/2302.01244v1
- Date: Thu, 2 Feb 2023 17:27:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 13:08:02.207045
- Title: Is Model Ensemble Necessary? Model-based RL via a Single Model with
Lipschitz Regularized Value Function
- Title(参考訳): モデルアンサンブルは必要か?
リプシッツ正規化値関数を持つ単一モデルによるモデルベースRL
- Authors: Ruijie Zheng, Xiyao Wang, Huazhe Xu, Furong Huang
- Abstract要約: 確率力学モデルアンサンブルは、既存のモデルに基づく強化学習法で広く使われている。
値函数に対して、リプシッツ条件が強くなるほど、真の力学によって誘導されるベルマン作用素の間のギャップは小さくなる。
- 参考スコア(独自算出の注目度): 23.255250192599327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Probabilistic dynamics model ensemble is widely used in existing model-based
reinforcement learning methods as it outperforms a single dynamics model in
both asymptotic performance and sample efficiency. In this paper, we provide
both practical and theoretical insights on the empirical success of the
probabilistic dynamics model ensemble through the lens of Lipschitz continuity.
We find that, for a value function, the stronger the Lipschitz condition is,
the smaller the gap between the true dynamics- and learned dynamics-induced
Bellman operators is, thus enabling the converged value function to be closer
to the optimal value function. Hence, we hypothesize that the key functionality
of the probabilistic dynamics model ensemble is to regularize the Lipschitz
condition of the value function using generated samples. To test this
hypothesis, we devise two practical robust training mechanisms through
computing the adversarial noise and regularizing the value network's spectral
norm to directly regularize the Lipschitz condition of the value functions.
Empirical results show that combined with our mechanisms, model-based RL
algorithms with a single dynamics model outperform those with an ensemble of
probabilistic dynamics models. These findings not only support the theoretical
insight, but also provide a practical solution for developing computationally
efficient model-based RL algorithms.
- Abstract(参考訳): 確率力学モデルアンサンブルは, 従来のモデルに基づく強化学習法において, 漸近的性能とサンプル効率の両方において, 単一の力学モデルより優れる。
本稿では,リプシッツ連続性レンズによる確率力学モデルアンサンブルの実証的成功について,実用的かつ理論的に考察する。
値関数の場合、リプシッツ条件が強ければ強いほど、真のダイナミクスと学習されたダイナミクスによって引き起こされるベルマン作用素の間のギャップが小さくなるので、収束した値関数が最適値関数に近づくことができる。
したがって、確率力学モデルアンサンブルの重要な機能は、生成したサンプルを用いて値関数のリプシッツ条件を正則化することであると仮定する。
この仮説を検証するために, 逆雑音を計算し, 値ネットワークのスペクトルノルムを正則化し, 値関数のリプシッツ条件を直接正則化することにより, 2つの実践的なロバストなトレーニング機構を考案する。
実験の結果,1つのダイナミクスモデルを持つモデルベースのrlアルゴリズムは,確率的ダイナミクスモデルのアンサンブルよりも優れていることがわかった。
これらの知見は理論的な洞察を裏付けるだけでなく、計算効率の良いモデルベースRLアルゴリズムを開発するための実用的なソリューションを提供する。
関連論文リスト
- Model-Based RL for Mean-Field Games is not Statistically Harder than Single-Agent RL [57.745700271150454]
モデルに基づく関数近似を用いた平均フィールドゲーム(MFG)における強化学習のサンプル複雑性について検討した。
本稿では、モデルクラスの複雑性を特徴付けるためのより効果的な概念である部分モデルベースエルダー次元(P-MBED)を紹介する。
論文 参考訳(メタデータ) (2024-02-08T14:54:47Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - General multi-fidelity surrogate models: Framework and active learning
strategies for efficient rare event simulation [1.708673732699217]
複雑な現実世界のシステムの失敗の確率を推定することは、しばしば違法に高価である。
本稿では,頑健な多要素代理モデリング戦略を提案する。
高忠実度モデル呼び出しの数を劇的に削減しながら、非常に正確であることが示されている。
論文 参考訳(メタデータ) (2022-12-07T00:03:21Z) - Active Learning for Single Neuron Models with Lipschitz Non-Linearities [35.119032992898774]
単一ニューロンモデルにおける能動的学習の問題点を考察する。
リプシッツ非線型性を持つ単一ニューロンモデルに対して、強い証明可能な近似保証が得られることを示す。
論文 参考訳(メタデータ) (2022-10-24T20:55:21Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - PSD Representations for Effective Probability Models [117.35298398434628]
最近提案された非負関数に対する正半定値(PSD)モデルがこの目的に特に適していることを示す。
我々はPSDモデルの近似と一般化能力の両方を特徴付け、それらが強い理論的保証を享受していることを示す。
本研究では,PSDモデルの密度推定,決定理論,推論への応用への道を開く。
論文 参考訳(メタデータ) (2021-06-30T15:13:39Z) - A Variational Infinite Mixture for Probabilistic Inverse Dynamics
Learning [34.90240171916858]
確率的局所モデルの無限混合に対する効率的な変分ベイズ推論手法を開発した。
我々は、データ駆動適応、高速予測、不連続関数とヘテロセダスティックノイズに対処する能力の組み合わせにおけるモデルのパワーを強調した。
学習したモデルを用いてBarrett-WAMマニピュレータのオンライン動的制御を行い、軌道追跡性能を大幅に改善した。
論文 参考訳(メタデータ) (2020-11-10T16:15:13Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。