論文の概要: Optimizing for the Future in Non-Stationary MDPs
- arxiv url: http://arxiv.org/abs/2005.08158v4
- Date: Mon, 21 Sep 2020 23:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 05:18:29.928246
- Title: Optimizing for the Future in Non-Stationary MDPs
- Title(参考訳): 非定常MDPの将来に向けての最適化
- Authors: Yash Chandak, Georgios Theocharous, Shiv Shankar, Martha White,
Sridhar Mahadevan, Philip S. Thomas
- Abstract要約: 本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
- 参考スコア(独自算出の注目度): 52.373873622008944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most reinforcement learning methods are based upon the key assumption that
the transition dynamics and reward functions are fixed, that is, the underlying
Markov decision process is stationary. However, in many real-world
applications, this assumption is violated, and using existing algorithms may
result in a performance lag. To proactively search for a good future policy, we
present a policy gradient algorithm that maximizes a forecast of future
performance. This forecast is obtained by fitting a curve to the
counter-factual estimates of policy performance over time, without explicitly
modeling the underlying non-stationarity. The resulting algorithm amounts to a
non-uniform reweighting of past data, and we observe that minimizing
performance over some of the data from past episodes can be beneficial when
searching for a policy that maximizes future performance. We show that our
algorithm, called Prognosticator, is more robust to non-stationarity than two
online adaptation techniques, on three simulated problems motivated by
real-world applications.
- Abstract(参考訳): ほとんどの強化学習法は、遷移力学と報酬関数が固定されているというキー仮定に基づいており、基礎となるマルコフ決定過程は定常である。
しかし、多くの現実世界のアプリケーションでは、この仮定は違反しており、既存のアルゴリズムを使用するとパフォーマンスが遅れる可能性がある。
良き将来の政策を積極的に探究するために,今後の業績予測を最大化する政策勾配アルゴリズムを提案する。
この予測は、根底にある非定常性を明示的にモデル化することなく、時間とともに政策性能の反実推定値に曲線を合わせることによって得られる。
得られたアルゴリズムは過去のデータに対する一様でない再重み付けに相当し、過去のエピソードのデータに対するパフォーマンスを最小化することは、将来のパフォーマンスを最大化するポリシーを探す際に有益である。
実世界の応用によって動機付けられた3つのシミュレートされた問題に対して,我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に対して堅牢であることを示す。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Reinforcement Learning in the Wild: Scalable RL Dispatching Algorithm
Deployed in Ridehailing Marketplace [12.298997392937876]
本研究では,強化学習に基づくリアルタイムディスパッチアルゴリズムを提案する。
ディディのA/Bテストの運営下にある複数の都市でオンラインに展開され、主要な国際市場の一つで展開されている。
デプロイされたアルゴリズムは、A/Bテストによるドライバーの総収入を1.3%以上改善している。
論文 参考訳(メタデータ) (2022-02-10T16:07:17Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。