論文の概要: Revisiting Model-based Value Expansion
- arxiv url: http://arxiv.org/abs/2203.14660v1
- Date: Mon, 28 Mar 2022 11:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 02:12:27.053426
- Title: Revisiting Model-based Value Expansion
- Title(参考訳): モデルベース価値拡大の再検討
- Authors: Daniel Palenicek, Michael Lutter, Jan Peters
- Abstract要約: モデルに基づく値展開手法は,値関数目標の品質向上と値関数学習の有効性を約束する。
しかし、これらの手法は、概念上より単純な1ステップの値関数ターゲットを持つDynaスタイルのアルゴリズムにより、これまでにも性能が向上している。
本研究は,実際に価値拡張手法の失敗の原因を明らかにするための,徹底的な実証的研究である。
- 参考スコア(独自算出の注目度): 35.55280687116388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based value expansion methods promise to improve the quality of value
function targets and, thereby, the effectiveness of value function learning.
However, to date, these methods are being outperformed by Dyna-style algorithms
with conceptually simpler 1-step value function targets. This shows that in
practice, the theoretical justification of value expansion does not seem to
hold. We provide a thorough empirical study to shed light on the causes of
failure of value expansion methods in practice which is believed to be the
compounding model error. By leveraging GPU based physics simulators, we are
able to efficiently use the true dynamics for analysis inside the model-based
reinforcement learning loop. Performing extensive comparisons between true and
learned dynamics sheds light into this black box. This paper provides a better
understanding of the actual problems in value expansion. We provide future
directions of research by empirically testing the maximum theoretical
performance of current approaches.
- Abstract(参考訳): モデルに基づく価値拡張手法は、価値関数ターゲットの品質向上と、価値関数学習の有効性を約束する。
しかし、これまでのところ、これらの手法は概念的に単純な1ステップの値関数のターゲットを持つdynaスタイルのアルゴリズムに勝っている。
これは、実際には、値展開の理論的な正当化は成り立たないことを示している。
本研究は,複合モデル誤差であると考えられる価値拡大手法の失敗の原因を明らかにするために,徹底的な実証研究を行った。
gpuベースの物理シミュレータを利用することで、モデルベースの強化学習ループ内の分析に真のダイナミクスを効率的に利用することができる。
trueとlearning dynamicsの広範な比較を行うと、このブラックボックスに光が流れます。
本稿では,価値拡大における問題点の理解を深める。
我々は,現在の手法の最大理論性能を実証的に検証することにより,今後の研究の方向性を示す。
関連論文リスト
- On Stateful Value Factorization in Multi-Agent Reinforcement Learning [19.342676562701794]
そこで我々はDuelmixを紹介した。Duelmixは、各エージェント毎のユーティリティ推定器を学習し、性能を向上する。
StarCraft IIのマイクロマネジメントとBox Pushingタスクの実験は、私たちの直感の利点を示しています。
論文 参考訳(メタデータ) (2024-08-27T19:45:26Z) - The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning [31.8260779160424]
学習力学モデルの改善に伴い,一般的なアルゴリズムがどのように機能するかを検討する。
エッジ・オブ・リーチ問題に直接対処する単純で堅牢な手法であるReach-Aware Learning (RAVL)を提案する。
論文 参考訳(メタデータ) (2024-02-19T20:38:00Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。