論文の概要: Mixed Reinforcement Learning with Additive Stochastic Uncertainty
- arxiv url: http://arxiv.org/abs/2003.00848v1
- Date: Fri, 28 Feb 2020 08:02:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 02:15:16.955492
- Title: Mixed Reinforcement Learning with Additive Stochastic Uncertainty
- Title(参考訳): 付加確率不確かさを用いた混合強化学習
- Authors: Yao Mu, Shengbo Eben Li, Chang Liu, Qi Sun, Bingbing Nie, Bo Cheng,
and Baiyu Peng
- Abstract要約: 強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では, 環境力学の2つの表現を同時に利用して, 最適ポリシーを探索する混合RLアルゴリズムを提案する。
混合RLの有効性は、非アフィン非線形系の典型的な最適制御問題によって実証される。
- 参考スコア(独自算出の注目度): 19.229447330293546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) methods often rely on massive exploration data to
search optimal policies, and suffer from poor sampling efficiency. This paper
presents a mixed reinforcement learning (mixed RL) algorithm by simultaneously
using dual representations of environmental dynamics to search the optimal
policy with the purpose of improving both learning accuracy and training speed.
The dual representations indicate the environmental model and the state-action
data: the former can accelerate the learning process of RL, while its inherent
model uncertainty generally leads to worse policy accuracy than the latter,
which comes from direct measurements of states and actions. In the framework
design of the mixed RL, the compensation of the additive stochastic model
uncertainty is embedded inside the policy iteration RL framework by using
explored state-action data via iterative Bayesian estimator (IBE). The optimal
policy is then computed in an iterative way by alternating between policy
evaluation (PEV) and policy improvement (PIM). The convergence of the mixed RL
is proved using the Bellman's principle of optimality, and the recursive
stability of the generated policy is proved via the Lyapunov's direct method.
The effectiveness of the mixed RL is demonstrated by a typical optimal control
problem of stochastic non-affine nonlinear systems (i.e., double lane change
task with an automated vehicle).
- Abstract(参考訳): 強化学習 (Reinforcement Learning, RL) 法は、しばしば最適なポリシーを探索するための大規模な探索データに依存し、サンプリング効率の低下に悩まされる。
本稿では,学習精度と学習速度の両面を改善することを目的として,環境力学の2つの表現を同時に用いた混合強化学習(混合RL)アルゴリズムを提案する。
前者はRLの学習プロセスを加速できるが、その固有のモデルの不確実性は一般に、状態や行動の直接測定から得られる政策の精度を後者よりも悪くする。
混合RLのフレームワーク設計において、反復ベイズ推定器(IBE)を介して探索された状態-作用データを用いて、追加確率モデルの不確実性の補償をポリシー反復RLフレームワーク内に組み込む。
最適政策は、政策評価(PEV)と政策改善(PIM)の交互化によって反復的に計算される。
混合RLの収束はベルマンの最適性原理を用いて証明され、リアプノフの直接法により生成されたポリシーの再帰的安定性が証明される。
混合RLの有効性は、確率的非アフィン非線形系の典型的な最適制御問題(すなわち、自動車両による二重車線変更タスク)によって実証される。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Adaptive Primal-Dual Method for Safe Reinforcement Learning [9.5147410074115]
安全強化学習(SRL)のための適応的原始双対法(APD)を提案し,解析し,評価する。
2つの適応LRをラグランジアン乗算器に調整し、各イテレーションにおけるポリシーを最適化する。
実験により、実用的なAPDアルゴリズムは、一定のLRの場合よりも、より安定したトレーニングを達成する(または同等の性能を達成する)ことが示されている。
論文 参考訳(メタデータ) (2024-02-01T05:53:44Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Model-Based Offline Reinforcement Learning with Pessimism-Modulated
Dynamics Belief [3.0036519884678894]
モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。
本研究は, 力学上の信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。
偏りのあるサンプリングは、Pessimism-Modulated Dynamics Beliefと呼ばれる、ポリシー依存の再重み付けによる更新された動的信念を自然に引き起こすことを示す。
論文 参考訳(メタデータ) (2022-10-13T03:14:36Z) - Stochastic optimal well control in subsurface reservoirs using
reinforcement learning [0.0]
本稿では,パラメータの不確実性分布の最適制御を行うためのモデルフリー強化学習フレームワークのケーススタディを提案する。
原理的には、RLアルゴリズムは数値報酬信号の最大化のために最適な行動ポリシーを学習することができる。
提案手法は,2つの水面流動試験ケースに対して,2つの最先端RLアルゴリズム,PPO,A2Cを用いて数値計算を行った。
論文 参考訳(メタデータ) (2022-07-07T17:34:23Z) - False Correlation Reduction for Offline Reinforcement Learning [115.11954432080749]
本稿では,実効的かつ理論的に証明可能なアルゴリズムであるオフラインRLに対するfalSe Correlation Reduction (SCORE)を提案する。
SCOREは、標準ベンチマーク(D4RL)において、様々なタスクにおいて3.1倍の高速化でSoTA性能を達成することを実証的に示す。
論文 参考訳(メタデータ) (2021-10-24T15:34:03Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - A Nonparametric Off-Policy Policy Gradient [32.35604597324448]
強化学習(RL)アルゴリズムは、最近の顕著な成功にもかかわらず、高いサンプリング複雑性に悩まされている。
オフポリシーアルゴリズムの一般的なサンプル効率に基づいて構築する。
提案手法は,現状の政策勾配法よりもサンプル効率がよいことを示す。
論文 参考訳(メタデータ) (2020-01-08T10:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。