論文の概要: The Benefits of Model-Based Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.02222v3
- Date: Mon, 10 Jul 2023 16:07:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 22:35:41.932772
- Title: The Benefits of Model-Based Generalization in Reinforcement Learning
- Title(参考訳): 強化学習におけるモデルベース一般化の利点
- Authors: Kenny Young, Aditya Ramesh, Louis Kirsch, J\"urgen Schmidhuber
- Abstract要約: 経験リプレイ(ER)は, 深部RLの安定性と効率向上に有効であることが証明された, 単純なモデルであると考えられる。
原則として、学習されたパラメトリックモデルは、実体験から一般化し、付加可能な経験でデータセットを増強することで、ERを改善することができる。
ここでは、学習モデルによって生成されたデータが有用であると期待できる時期と方法について、理論的、実証的な知見を提供する。
- 参考スコア(独自算出の注目度): 11.434117284660125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-Based Reinforcement Learning (RL) is widely believed to have the
potential to improve sample efficiency by allowing an agent to synthesize large
amounts of imagined experience. Experience Replay (ER) can be considered a
simple kind of model, which has proved effective at improving the stability and
efficiency of deep RL. In principle, a learned parametric model could improve
on ER by generalizing from real experience to augment the dataset with
additional plausible experience. However, given that learned value functions
can also generalize, it is not immediately obvious why model generalization
should be better. Here, we provide theoretical and empirical insight into when,
and how, we can expect data generated by a learned model to be useful. First,
we provide a simple theorem motivating how learning a model as an intermediate
step can narrow down the set of possible value functions more than learning a
value function directly from data using the Bellman equation. Second, we
provide an illustrative example showing empirically how a similar effect occurs
in a more concrete setting with neural network function approximation. Finally,
we provide extensive experiments showing the benefit of model-based learning
for online RL in environments with combinatorial complexity, but factored
structure that allows a learned model to generalize. In these experiments, we
take care to control for other factors in order to isolate, insofar as
possible, the benefit of using experience generated by a learned model relative
to ER alone.
- Abstract(参考訳): モデルベース強化学習(RL)は、エージェントが大量の想像上の経験を合成できるようにすることで、サンプル効率を向上させる可能性があると広く信じられている。
経験リプレイ(ER)は, 深部RLの安定性と効率向上に有効であることが証明された, 単純なモデルであると考えられる。
原則として、学習されたパラメトリックモデルは、実体験から一般化し、付加可能な経験でデータセットを増強することで、ERを改善することができる。
しかし、学習値関数も一般化できるので、なぜモデル一般化が良いのかはすぐには明らかではない。
ここでは,学習モデルが生成したデータの有用性について,理論的かつ実証的な知見を提供する。
まず、中間ステップとしてモデルを学ぶことは、ベルマン方程式を用いてデータから直接値関数を学習するよりも、可能な値関数の集合を狭めることができるという単純な定理を提供する。
第2に、ニューラルネットワーク関数近似を用いたより具体的な環境で、同様の効果がどのように起こるかを実証的に示す。
最後に,コンビネート複雑環境におけるオンラインrlにおけるモデルベース学習のメリットを示すとともに,学習モデルの一般化を可能にするファクタード構造を提案する。
これらの実験では,ERに対して学習モデルが生成した経験を可能な限り分離するために,他の要因の制御に注意する。
関連論文リスト
- Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate [40.5601980891318]
一般化は依然として機械学習における中心的な課題である。
本稿では,ニューラルネットワークを一般化するための新しい正規化手法であるLearning from Teaching (LoT)を提案する。
LoTはこの概念を運用し、補助的な学生学習者とメインモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-05T07:05:17Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Is Model Ensemble Necessary? Model-based RL via a Single Model with
Lipschitz Regularized Value Function [23.255250192599327]
確率力学モデルアンサンブルは、既存のモデルに基づく強化学習法で広く使われている。
値函数に対して、リプシッツ条件が強くなるほど、真の力学によって誘導されるベルマン作用素の間のギャップは小さくなる。
論文 参考訳(メタデータ) (2023-02-02T17:27:16Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Small Data, Big Decisions: Model Selection in the Small-Data Regime [11.817454285986225]
トレーニングセットのサイズが桁違いに変化するため,一般化性能について検討する。
さらに、現代のニューラルネットワークアーキテクチャが与えられた共通のデータセットに対して、最小記述長を推定することができる。
論文 参考訳(メタデータ) (2020-09-26T12:52:56Z) - Domain Knowledge Integration By Gradient Matching For Sample-Efficient
Reinforcement Learning [0.0]
本研究では,モデルフリー学習者を支援するために,ダイナミックスからの目標勾配情報を活用することで,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。
本稿では,モデルに基づく学習者からの勾配情報と,抽象的な低次元空間におけるモデル自由成分とをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-28T05:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。