論文の概要: Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction
- arxiv url: http://arxiv.org/abs/2103.02225v1
- Date: Wed, 3 Mar 2021 07:28:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-04 14:55:01.973753
- Title: Foresee then Evaluate: Decomposing Value Estimation with Latent Future
Prediction
- Title(参考訳): 予測と評価:潜在未来予測による価値推定の分解
- Authors: Hongyao Tang, Jianye Hao, Guangyong Chen, Pengfei Chen, Chen Chen,
Yaodong Yang, Luo Zhang, Wulong Liu, Zhaopeng Meng
- Abstract要約: 価値関数は強化学習(rl)の中心的な概念である
将来予測付き価値分解(VDFP)を提案する。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
- 参考スコア(独自算出の注目度): 37.06232589005015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Value function is the central notion of Reinforcement Learning (RL). Value
estimation, especially with function approximation, can be challenging since it
involves the stochasticity of environmental dynamics and reward signals that
can be sparse and delayed in some cases. A typical model-free RL algorithm
usually estimates the values of a policy by Temporal Difference (TD) or Monte
Carlo (MC) algorithms directly from rewards, without explicitly taking dynamics
into consideration. In this paper, we propose Value Decomposition with Future
Prediction (VDFP), providing an explicit two-step understanding of the value
estimation process: 1) first foresee the latent future, 2) and then evaluate
it. We analytically decompose the value function into a latent future dynamics
part and a policy-independent trajectory return part, inducing a way to model
latent dynamics and returns separately in value estimation. Further, we derive
a practical deep RL algorithm, consisting of a convolutional model to learn
compact trajectory representation from past experiences, a conditional
variational auto-encoder to predict the latent future dynamics and a convex
return model that evaluates trajectory representation. In experiments, we
empirically demonstrate the effectiveness of our approach for both off-policy
and on-policy RL in several OpenAI Gym continuous control tasks as well as a
few challenging variants with delayed reward.
- Abstract(参考訳): 価値関数は強化学習(RL)の中心的な概念である。
特に関数近似では、環境ダイナミクスの確率性や、場合によっては狭く遅延する可能性のある報酬信号を含むため、価値推定は困難である。
典型的なモデルフリーRLアルゴリズムは、通常、報酬から直接テンポラル差分(TD)またはモンテカルロ(MC)アルゴリズムによってポリシーの値を推定し、ダイナミクスを明示的に考慮しない。
本稿では,バリュー・デコンポジションと未来予測(VDFP)を提案し,バリュー・見積もりのプロセスについて,(1)先行きの将来を予見する,2) の2段階の明確な理解と評価を行う。
価値関数を潜在未来ダイナミクス部とポリシー非依存軌道返却部とに分析分解し、潜在ダイナミクスをモデル化する方法を誘導し、価値推定において別々に返却する。
さらに、過去の経験からコンパクトな軌道表現を学習する畳み込みモデルと、潜在的な将来のダイナミクスを予測する条件変動自動エンコーダと、軌道表現を評価する凸戻りモデルからなる実用的な深部RLアルゴリズムを導出する。
実験では、いくつかのOpenAIジムの継続的制御タスクにおけるオフポリシーとオンポリシーRLの両方に対するアプローチの有効性を実証的に実証します。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Evaluating Pedestrian Trajectory Prediction Methods with Respect to Autonomous Driving [0.9217021281095907]
本稿では,単一軌跡生成の文脈における歩行者軌跡予測における技術の現状を評価する。
評価は、平均変位誤差(ADE)と最終変位誤差(FDE)を報告した広く使われているETH/UCYデータセット上で行われる。
論文 参考訳(メタデータ) (2023-08-09T19:21:50Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Value Gradient weighted Model-Based Reinforcement Learning [28.366157882991565]
モデルベース強化学習(MBRL)は、制御ポリシーを得るための効率的な手法である。
VaGraMは価値認識モデル学習の新しい手法である。
論文 参考訳(メタデータ) (2022-04-04T13:28:31Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Generative Temporal Difference Learning for Infinite-Horizon Prediction [101.59882753763888]
我々は、無限確率的地平線を持つ環境力学の予測モデルである$gamma$-modelを導入する。
トレーニングタイムとテストタイムの複合的なエラーの間には、そのトレーニングが避けられないトレードオフを反映しているかについて議論する。
論文 参考訳(メタデータ) (2020-10-27T17:54:12Z) - Value-driven Hindsight Modelling [68.658900923595]
値推定は強化学習(RL)パラダイムの重要な構成要素である。
モデル学習は、観測系列に存在する豊富な遷移構造を利用することができるが、このアプローチは通常、報酬関数に敏感ではない。
この2つの極点の間に位置するRLにおける表現学習のアプローチを開発する。
これにより、タスクに直接関連し、値関数の学習を加速できる、抽出可能な予測ターゲットが提供される。
論文 参考訳(メタデータ) (2020-02-19T18:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。