論文の概要: Self-Consistent Models and Values
- arxiv url: http://arxiv.org/abs/2110.12840v1
- Date: Mon, 25 Oct 2021 12:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:06:46.558045
- Title: Self-Consistent Models and Values
- Title(参考訳): 自己整合モデルと価値
- Authors: Gregory Farquhar, Kate Baumli, Zita Marinho, Angelos Filos, Matteo
Hessel, Hado van Hasselt, David Silver
- Abstract要約: 環境の学習モデルは、環境に関する予測を行う柔軟な方法を備えた強化学習(RL)エージェントを提供する。
本研究は,学習モデルと価値関数を共存させることによって,モデルに基づくRLを増大させる手法について検討する。
我々のアプローチは、Dynaのような古典的な計画手法とは異なる。
- 参考スコア(独自算出の注目度): 42.53364554418915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learned models of the environment provide reinforcement learning (RL) agents
with flexible ways of making predictions about the environment. In particular,
models enable planning, i.e. using more computation to improve value functions
or policies, without requiring additional environment interactions. In this
work, we investigate a way of augmenting model-based RL, by additionally
encouraging a learned model and value function to be jointly
\emph{self-consistent}. Our approach differs from classic planning methods such
as Dyna, which only update values to be consistent with the model. We propose
multiple self-consistency updates, evaluate these in both tabular and function
approximation settings, and find that, with appropriate choices,
self-consistency helps both policy evaluation and control.
- Abstract(参考訳): 環境の学習モデルは、環境に関する予測を行う柔軟な方法を備えた強化学習(RL)エージェントを提供する。
特に、モデルにより、さらなる環境相互作用を必要とせず、より多くの計算を使って価値関数やポリシーを改善することができる。
本研究では,学習モデルと値関数を併用して,モデルベースRLを増強する方法について検討する。
このアプローチはdynaのような従来の計画手法と異なり、モデルに一貫性を持たせるために値を更新するだけである。
複数の自己整合性更新を提案し、これらを表と関数の近似設定で評価し、適切な選択により、自己整合性はポリシー評価と制御の両方に役立つことを確かめる。
関連論文リスト
- Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - AMUSE: Adaptive Model Updating using a Simulated Environment [1.6124402884077915]
予測モデルは、基礎となるデータ分布が時間とともに変化し、性能が低下するコンセプトドリフトの課題にしばしば直面する。
シミュレーションデータ生成環境内で学習した強化学習を活用する新しい手法であるAMUSEを提案する。
その結果、AMUSEは予想されるパフォーマンス改善に基づいたアップデートを積極的に推奨している。
論文 参考訳(メタデータ) (2024-12-13T13:04:46Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Model-Value Inconsistency as a Signal for Epistemic Uncertainty [22.492926703232015]
自己整合性(Self-Insistency)は、探索のための信号であり、(ii)分散シフトの下で安全に行動するための信号であり、(iii)モデルによる価値に基づく計画の堅牢化のための信号である。
従来の研究とは異なり、このアプローチはモデルベース強化学習アルゴリズムですでに学習されている単一のモデルと値関数のみを必要とする。
論文 参考訳(メタデータ) (2021-12-08T07:53:41Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Deep Interactive Bayesian Reinforcement Learning via Meta-Learning [63.96201773395921]
他のエージェントの戦略に対する不確実性下での最適適応行動は、インタラクティブベイズ強化学習フレームワークを用いて計算することができる。
本稿では,メタラーン近似的信念推論とベイズ最適行動を提案する。
提案手法は, モデルフリーアプローチ, 近似後部からのサンプル採取, 他者のメモリフリーモデル維持, あるいは環境の既知の構造を完全に活用しない既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T13:25:13Z) - The Value Equivalence Principle for Model-Based Reinforcement Learning [29.368870568214007]
モデルベースRLエージェントの限られた表現資源は、価値ベースプランニングに直接有用なモデルを構築するのによく使われていると論じる。
検討されたポリシーと関数の集合を拡大するにつれて、値等価モデルのクラスが縮小することを示す。
価値等価性の原理は、RLにおける最近の経験的成功の根底にあると論じる。
論文 参考訳(メタデータ) (2020-11-06T18:25:54Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。