論文の概要: The Benefits of Model-Based Generalization in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.02222v1
- Date: Fri, 4 Nov 2022 02:10:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 17:01:56.560462
- Title: The Benefits of Model-Based Generalization in Reinforcement Learning
- Title(参考訳): 強化学習におけるモデルベース一般化の利点
- Authors: Kenny Young, Aditya Ramesh, Louis Kirsch, J\"urgen Schmidhuber
- Abstract要約: 経験リプレイ(ER)は深部RLの安定性と効率を向上させるのに極めて有効であることが証明された。
原則として、学習されたパラメトリックモデルは、実体験から一般化し、付加可能な経験でデータセットを増強することで、ERを改善することができる。
ここでは、学習モデルによって生成されたデータが有用であると期待できる時期と方法について、理論的、実証的な知見を提供する。
- 参考スコア(独自算出の注目度): 11.434117284660125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-Based Reinforcement Learning (RL) is widely believed to have the
potential to improve sample efficiency by allowing an agent to synthesize large
amounts of imagined experience. Experience Replay (ER) can be considered a
simple kind of model, which has proved extremely effective at improving the
stability and efficiency of deep RL. In principle, a learned parametric model
could improve on ER by generalizing from real experience to augment the dataset
with additional plausible experience. However, owing to the many design choices
involved in empirically successful algorithms, it can be very hard to establish
where the benefits are actually coming from. Here, we provide theoretical and
empirical insight into when, and how, we can expect data generated by a learned
model to be useful. First, we provide a general theorem motivating how learning
a model as an intermediate step can narrow down the set of possible value
functions more than learning a value function directly from data using the
Bellman equation. Second, we provide an illustrative example showing
empirically how a similar effect occurs in a more concrete setting with neural
network function approximation. Finally, we provide extensive experiments
showing the benefit of model-based learning for online RL in environments with
combinatorial complexity, but factored structure that allows a learned model to
generalize. In these experiments, we take care to control for other factors in
order to isolate, insofar as possible, the benefit of using experience
generated by a learned model relative to ER alone.
- Abstract(参考訳): モデルベース強化学習(RL)は、エージェントが大量の想像上の経験を合成できるようにすることで、サンプル効率を向上させる可能性があると広く信じられている。
経験リプレイ(ER)は, 深部RLの安定性と効率向上に極めて有効であることが証明された, 単純なモデルであると考えられる。
原則として、学習されたパラメトリックモデルは、実体験から一般化し、付加可能な経験でデータセットを増強することで、ERを改善することができる。
しかし、経験的に成功したアルゴリズムに関わる多くの設計上の選択のため、その利点が実際にどこから来ているかを確立することは非常に困難である。
ここでは,学習モデルが生成したデータの有用性について,理論的かつ実証的な知見を提供する。
まず、中間ステップとしてモデルを学習することで、ベルマン方程式を用いてデータから直接値関数を学習するよりも、可能な値関数の集合を狭めることができるという一般的な定理を提供する。
第2に、ニューラルネットワーク関数近似を用いたより具体的な環境で、同様の効果がどのように起こるかを実証的に示す。
最後に,コンビネート複雑環境におけるオンラインrlにおけるモデルベース学習のメリットを示すとともに,学習モデルの一般化を可能にするファクタード構造を提案する。
これらの実験では,ERに対して学習モデルが生成した経験を可能な限り分離するために,他の要因の制御に注意する。
関連論文リスト
- Prioritized Generative Replay [121.83947140497655]
本稿では,オンライン体験を再現する生成モデルを用いて,エージェントのメモリの優先的でパラメトリックなバージョンを提案する。
このパラダイムは、生成モデルの一般化能力の恩恵を受ける新しい世代と共に、過去の経験の密度化を可能にする。
このレシピは条件付き拡散モデルと単純な関連関数を用いてインスタンス化できることを示す。
論文 参考訳(メタデータ) (2024-10-23T17:59:52Z) - Learning from Teaching Regularization: Generalizable Correlations Should be Easy to Imitate [40.5601980891318]
一般化は依然として機械学習における中心的な課題である。
本稿では,ニューラルネットワークを一般化するための新しい正規化手法であるLearning from Teaching (LoT)を提案する。
LoTはこの概念を運用し、補助的な学生学習者によるメインモデルの一般化を改善する。
論文 参考訳(メタデータ) (2024-02-05T07:05:17Z) - Is Model Ensemble Necessary? Model-based RL via a Single Model with
Lipschitz Regularized Value Function [23.255250192599327]
確率力学モデルアンサンブルは、既存のモデルに基づく強化学習法で広く使われている。
値函数に対して、リプシッツ条件が強くなるほど、真の力学によって誘導されるベルマン作用素の間のギャップは小さくなる。
論文 参考訳(メタデータ) (2023-02-02T17:27:16Z) - Inverse Reinforcement Learning for Text Summarization [52.765898203824975]
本稿では,抽象的な要約モデルを学習するための効果的なパラダイムとして,逆強化学習(IRL)を導入する。
異なる領域におけるデータセット間の実験結果は、MLEおよびRLベースラインに対する要約のための提案したIRLモデルの優位性を示す。
論文 参考訳(メタデータ) (2022-12-19T23:45:05Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。
本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文 参考訳(メタデータ) (2022-06-17T16:18:28Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - CCLF: A Contrastive-Curiosity-Driven Learning Framework for
Sample-Efficient Reinforcement Learning [56.20123080771364]
我々は、強化学習のためのモデルに依存しないコントラスト駆動学習フレームワーク(CCLF)を開発した。
CCLFは、サンプルの重要性を完全に活用し、自己管理的な学習効率を向上させる。
このアプローチをDeepMind Control Suite、Atari、MiniGridベンチマークで評価する。
論文 参考訳(メタデータ) (2022-05-02T14:42:05Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Small Data, Big Decisions: Model Selection in the Small-Data Regime [11.817454285986225]
トレーニングセットのサイズが桁違いに変化するため,一般化性能について検討する。
さらに、現代のニューラルネットワークアーキテクチャが与えられた共通のデータセットに対して、最小記述長を推定することができる。
論文 参考訳(メタデータ) (2020-09-26T12:52:56Z) - Domain Knowledge Integration By Gradient Matching For Sample-Efficient
Reinforcement Learning [0.0]
本研究では,モデルフリー学習者を支援するために,ダイナミックスからの目標勾配情報を活用することで,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。
本稿では,モデルに基づく学習者からの勾配情報と,抽象的な低次元空間におけるモデル自由成分とをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-28T05:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。