論文の概要: Self-Consistent Models and Values
- arxiv url: http://arxiv.org/abs/2110.12840v1
- Date: Mon, 25 Oct 2021 12:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:06:46.558045
- Title: Self-Consistent Models and Values
- Title(参考訳): 自己整合モデルと価値
- Authors: Gregory Farquhar, Kate Baumli, Zita Marinho, Angelos Filos, Matteo
Hessel, Hado van Hasselt, David Silver
- Abstract要約: 環境の学習モデルは、環境に関する予測を行う柔軟な方法を備えた強化学習(RL)エージェントを提供する。
本研究は,学習モデルと価値関数を共存させることによって,モデルに基づくRLを増大させる手法について検討する。
我々のアプローチは、Dynaのような古典的な計画手法とは異なる。
- 参考スコア(独自算出の注目度): 42.53364554418915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned models of the environment provide reinforcement learning (RL) agents
with flexible ways of making predictions about the environment. In particular,
models enable planning, i.e. using more computation to improve value functions
or policies, without requiring additional environment interactions. In this
work, we investigate a way of augmenting model-based RL, by additionally
encouraging a learned model and value function to be jointly
\emph{self-consistent}. Our approach differs from classic planning methods such
as Dyna, which only update values to be consistent with the model. We propose
multiple self-consistency updates, evaluate these in both tabular and function
approximation settings, and find that, with appropriate choices,
self-consistency helps both policy evaluation and control.
- Abstract(参考訳): 環境の学習モデルは、環境に関する予測を行う柔軟な方法を備えた強化学習(RL)エージェントを提供する。
特に、モデルにより、さらなる環境相互作用を必要とせず、より多くの計算を使って価値関数やポリシーを改善することができる。
本研究では,学習モデルと値関数を併用して,モデルベースRLを増強する方法について検討する。
このアプローチはdynaのような従来の計画手法と異なり、モデルに一貫性を持たせるために値を更新するだけである。
複数の自己整合性更新を提案し、これらを表と関数の近似設定で評価し、適切な選択により、自己整合性はポリシー評価と制御の両方に役立つことを確かめる。
関連論文リスト
- COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Adaptive Rollout Length for Model-Based RL Using Model-Free Deep RL [39.58890668062184]
ロールアウト長をメタレベルのシーケンシャルな意思決定問題としてチューニングする問題について検討する。
メタレベル決定問題の解決にはモデルフリーの深層強化学習を用いる。
論文 参考訳(メタデータ) (2022-06-06T06:25:11Z) - Model-Value Inconsistency as a Signal for Epistemic Uncertainty [22.492926703232015]
自己整合性(Self-Insistency)は、探索のための信号であり、(ii)分散シフトの下で安全に行動するための信号であり、(iii)モデルによる価値に基づく計画の堅牢化のための信号である。
従来の研究とは異なり、このアプローチはモデルベース強化学習アルゴリズムですでに学習されている単一のモデルと値関数のみを必要とする。
論文 参考訳(メタデータ) (2021-12-08T07:53:41Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Policy-Aware Model Learning for Policy Gradient Methods [29.129883702165774]
本稿では,モデルベース強化学習(MBRL)におけるモデル学習の問題について考察する。
モデル学習モジュールは、プランナーがモデルを使う方法を取り入れるべきである。
このアプローチをPAML(Policy-Aware Model Learning)と呼ぶ。
論文 参考訳(メタデータ) (2020-02-28T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。