論文の概要: Value Gradient weighted Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2204.01464v2
- Date: Tue, 20 Jun 2023 19:28:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 18:23:02.207382
- Title: Value Gradient weighted Model-Based Reinforcement Learning
- Title(参考訳): 重み付きモデルに基づく強化学習
- Authors: Claas Voelcker and Victor Liao and Animesh Garg and Amir-massoud
Farahmand
- Abstract要約: モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
- 参考スコア(独自算出の注目度): 28.366157882991565
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) is a sample efficient technique to
obtain control policies, yet unavoidable modeling errors often lead performance
deterioration. The model in MBRL is often solely fitted to reconstruct
dynamics, state observations in particular, while the impact of model error on
the policy is not captured by the training objective. This leads to a mismatch
between the intended goal of MBRL, enabling good policy and value learning, and
the target of the loss function employed in practice, future state prediction.
Naive intuition would suggest that value-aware model learning would fix this
problem and, indeed, several solutions to this objective mismatch problem have
been proposed based on theoretical analysis. However, they tend to be inferior
in practice to commonly used maximum likelihood (MLE) based approaches. In this
paper we propose the Value-gradient weighted Model Learning (VaGraM), a novel
method for value-aware model learning which improves the performance of MBRL in
challenging settings, such as small model capacity and the presence of
distracting state dimensions. We analyze both MLE and value-aware approaches
and demonstrate how they fail to account for exploration and the behavior of
function approximation when learning value-aware models and highlight the
additional goals that must be met to stabilize optimization in the deep
learning setting. We verify our analysis by showing that our loss function is
able to achieve high returns on the Mujoco benchmark suite while being more
robust than maximum likelihood based approaches.
- Abstract(参考訳): モデルベース強化学習(mbrl: model-based reinforcement learning)は、制御ポリシーを取得するためのサンプル効率的な手法であるが、避けられないモデリングエラーによってパフォーマンスが低下することが多い。
MBRLのモデルはしばしば力学、特に状態観察の再構成にのみ適合するが、モデルエラーが政策に与える影響は訓練目的によって捉えられていない。
このことは、MBRLの意図した目標と、優れたポリシーと価値学習を可能にすることと、現実に採用される損失関数のターゲットである将来の状態予測とをミスマッチさせる。
ナイーブ直観は、価値を意識したモデル学習がこの問題を修正することを示唆し、実際、この客観的なミスマッチ問題に対するいくつかの解決策が理論的解析に基づいて提案されている。
しかしながら、一般的にmle(maximum likelihood)ベースのアプローチでは、実際には劣る傾向がある。
本稿では,少人数モデルキャパシティや気を散らす状態次元など,挑戦的な設定においてmbrlの性能を向上させる,価値認識型モデル学習のための新しい手法であるバリューグレード重み付きモデル学習(vagram)を提案する。
我々は,mle と value-aware の両方のアプローチを分析し,価値認識モデルを学ぶ際の探索と関数近似の振る舞いについて説明できないことを示し,深層学習環境における最適化の安定化に必要な追加目標を強調する。
我々は、ロス関数が最大確率に基づくアプローチよりも頑健でありながら、mujocoベンチマークスイートで高いリターンを達成できることを示すことによって、分析を検証する。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - A Unified View on Solving Objective Mismatch in Model-Based Reinforcement Learning [10.154341066746975]
モデルベース強化学習(MBRL)は、エージェントをよりサンプリング効率、適応性、説明しやすいものにすることを目的としている。
モデルをどのように学習するかは、まだ未解決の問題である。
論文 参考訳(メタデータ) (2023-10-10T01:58:38Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Mismatched No More: Joint Model-Policy Optimization for Model-Based RL [172.37829823752364]
本稿では,モデルとポリシーを共同でトレーニングする単一目的について提案する。
我々の目標は、期待されるリターンのグローバルな低い境界であり、この境界は特定の仮定の下で厳密になる。
結果のアルゴリズム(MnM)は概念的にはGANと似ている。
論文 参考訳(メタデータ) (2021-10-06T13:43:27Z) - Physics-informed Dyna-Style Model-Based Deep Reinforcement Learning for
Dynamic Control [1.8275108630751844]
本稿では,支配法則が(一部)知られている環境の物理の先行知識を活用することを提案する。
環境の事前情報を取り入れることで、学習したモデルの品質を顕著に改善することができる。
論文 参考訳(メタデータ) (2021-07-31T02:19:36Z) - Model-Advantage Optimization for Model-Based Reinforcement Learning [41.13567626667456]
モデルに基づく強化学習(MBRL)アルゴリズムは、伝統的に環境の正確な力学を学習するために設計されてきた。
モデル学習を最大限に活用するためのモデル学習パラダイムであるバリューアウェアモデル学習は,学習ポリシーの価値関数を通じてモデル学習に通知することを提案する。
本稿では、2つのモデルにまたがるポリシーの絶対的な性能差の上限である新しい値認識目的を提案する。
論文 参考訳(メタデータ) (2021-06-26T20:01:28Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。