論文の概要: The Value Equivalence Principle for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2011.03506v1
- Date: Fri, 6 Nov 2020 18:25:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 04:24:19.687614
- Title: The Value Equivalence Principle for Model-Based Reinforcement Learning
- Title(参考訳): モデルに基づく強化学習における価値等価原理
- Authors: Christopher Grimm, Andr\'e Barreto, Satinder Singh, David Silver
- Abstract要約: モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
- 参考スコア(独自算出の注目度): 29.368870568214007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning models of the environment from data is often viewed as an essential
component to building intelligent reinforcement learning (RL) agents. The
common practice is to separate the learning of the model from its use, by
constructing a model of the environment's dynamics that correctly predicts the
observed state transitions. In this paper we argue that the limited
representational resources of model-based RL agents are better used to build
models that are directly useful for value-based planning. As our main
contribution, we introduce the principle of value equivalence: two models are
value equivalent with respect to a set of functions and policies if they yield
the same Bellman updates. We propose a formulation of the model learning
problem based on the value equivalence principle and analyze how the set of
feasible solutions is impacted by the choice of policies and functions.
Specifically, we show that, as we augment the set of policies and functions
considered, the class of value equivalent models shrinks, until eventually
collapsing to a single point corresponding to a model that perfectly describes
the environment. In many problems, directly modelling state-to-state
transitions may be both difficult and unnecessary. By leveraging the
value-equivalence principle one may find simpler models without compromising
performance, saving computation and memory. We illustrate the benefits of
value-equivalent model learning with experiments comparing it against more
traditional counterparts like maximum likelihood estimation. More generally, we
argue that the principle of value equivalence underlies a number of recent
empirical successes in RL, such as Value Iteration Networks, the Predictron,
Value Prediction Networks, TreeQN, and MuZero, and provides a first theoretical
underpinning of those results.
- Abstract(参考訳): データから環境の学習モデルは、インテリジェント強化学習(rl)エージェントを構築する上で不可欠な要素と見なされることが多い。
一般的なプラクティスは、観測された状態遷移を正確に予測する環境のダイナミクスのモデルを構築することで、モデルの使用から学習を分離することである。
本稿では, モデルベースRLエージェントの限られた表現資源が, 直接的に価値ベースプランニングに有用なモデル構築に利用されていることを論じる。
2つのモデルは、ベルマンの更新が同じならば、関数とポリシーの集合に対して等価な値である。
本稿では,価値同値原理に基づくモデル学習問題の定式化と,実現可能な解の集合が政策や関数の選択にどのように影響するかを分析する。
具体的には、考慮されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小し、最終的に環境を完全に記述したモデルに対応する単一点に崩壊することを示す。
多くの問題において、状態間遷移を直接モデル化することは困難かつ不要である。
値等価原理を利用することで、パフォーマンスを損なわずにシンプルなモデルを見つけ、計算とメモリを節約できる。
我々は、価値等価モデル学習の利点を、最大推定のような従来のモデル学習と比較した実験で説明する。
より一般的には、値等価性の原理は、価値反復ネットワーク、予測ネットワーク、価値予測ネットワーク、ツリーQN、MuZeroなど、RLにおける最近の経験的成功の基盤となり、それらの結果に最初の理論的基盤を提供する。
関連論文リスト
- Minimal Value-Equivalent Partial Models for Scalable and Robust Planning
in Lifelong Reinforcement Learning [56.50123642237106]
モデルに基づく強化学習における一般的な実践は、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。
このようなモデルは、生涯にわたる強化学習シナリオにおいて、スケーラブルで堅牢な計画を実行するのに特に適していない、と我々は主張する。
我々は,「最小値部分モデル」と呼ぶ,環境の関連する側面のみをモデル化する新しい種類のモデルを提案する。
論文 参考訳(メタデータ) (2023-01-24T16:40:01Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Between Rate-Distortion Theory & Value Equivalence in Model-Based
Reinforcement Learning [21.931580762349096]
本稿では,エージェントが相変わらず最適動作を回復する環境の単純で有用な近似を合成するアルゴリズムを提案する。
我々は、この損失のある環境圧縮問題の情報理論的性質を認識し、この速度歪み理論の適切なツールを用いて、値等価性がトラクタビリティを他の難解なシーケンシャルな意思決定問題にもたらすことができるかを数学的に正確にする。
論文 参考訳(メタデータ) (2022-06-04T17:09:46Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。