論文の概要: Testing Stationarity and Change Point Detection in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2203.01707v3
- Date: Fri, 8 Mar 2024 01:00:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 23:54:16.944787
- Title: Testing Stationarity and Change Point Detection in Reinforcement
Learning
- Title(参考訳): 強化学習における定性検査と変化点検出
- Authors: Mengbing Li, Chengchun Shi, Zhenke Wu and Piotr Fryzlewicz
- Abstract要約: 予め収集した履歴データに基づいて最適なQ-関数の非定常性をテストする一貫した手順を開発する。
さらに、非定常環境における政策最適化のための既存の最先端RL手法と自然に結合可能な逐次変化点検出法を開発した。
- 参考スコア(独自算出の注目度): 10.343546104340962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider offline reinforcement learning (RL) methods in possibly
nonstationary environments. Many existing RL algorithms in the literature rely
on the stationarity assumption that requires the system transition and the
reward function to be constant over time. However, the stationarity assumption
is restrictive in practice and is likely to be violated in a number of
applications, including traffic signal control, robotics and mobile health. In
this paper, we develop a consistent procedure to test the nonstationarity of
the optimal Q-function based on pre-collected historical data, without
additional online data collection. Based on the proposed test, we further
develop a sequential change point detection method that can be naturally
coupled with existing state-of-the-art RL methods for policy optimization in
nonstationary environments. The usefulness of our method is illustrated by
theoretical results, simulation studies, and a real data example from the 2018
Intern Health Study. A Python implementation of the proposed procedure is
available at https://github.com/limengbinggz/CUSUM-RL.
- Abstract(参考訳): 非定常環境におけるオフライン強化学習(RL)手法を検討する。
文献における既存のRLアルゴリズムの多くは、システムの遷移と報酬関数が時間とともに一定となるような定常性の仮定に依存している。
しかし、定常性の仮定は実際には制限的であり、交通信号制御、ロボット工学、モバイル健康など、多くのアプリケーションで違反される可能性が高い。
本稿では,事前収集履歴データに基づく最適Q-関数の非定常性をテストするための一貫した手順を,追加のオンラインデータ収集なしに開発する。
提案するテストに基づいて,非定常環境におけるポリシー最適化のための既存のrl手法と自然に結合可能な逐次的変化点検出法を更に開発する。
本手法の有用性は, 理論的な結果, シミュレーション研究, および2018年のインターン健康研究の実データ例によって示される。
提案されたプロシージャのPython実装はhttps://github.com/limengbinggz/CUSUM-RLで公開されている。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Environment Transformer and Policy Optimization for Model-Based Offline
Reinforcement Learning [25.684201757101267]
本研究では環境変換器と呼ばれる不確実性を考慮したシーケンスモデリングアーキテクチャを提案する。
遷移力学と報酬関数の正確なモデリングにより、環境変換器は任意の計画、動的プログラミング、オフラインRLのためのポリシー最適化アルゴリズムと組み合わせることができる。
論文 参考訳(メタデータ) (2023-03-07T11:26:09Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Model Selection for Offline Reinforcement Learning: Practical
Considerations for Healthcare Settings [13.376364233897528]
強化学習は治療方針を学習し、医療における意思決定を支援するために用いられる。
モデル選択のための標準的な検証パイプラインは、実際の環境で学習したポリシーを実行する必要がある。
我々の研究は、オフラインのRLモデル選択のための実用的なガイドとして機能し、実世界のデータセットを使用してRL実践者がポリシーを選択するのに役立つ。
論文 参考訳(メタデータ) (2021-07-23T02:41:51Z) - Fast and Robust Online Inference with Stochastic Gradient Descent via
Random Scaling [0.9806910643086042]
本稿では,勾配降下アルゴリズムの平均化法により推定されるパラメータのベクトルに対するオンライン推論法を提案する。
我々のアプローチはオンラインデータで完全に運用されており、機能中心極限定理によって厳格に支えられている。
論文 参考訳(メタデータ) (2021-06-06T15:38:37Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Strictly Batch Imitation Learning by Energy-based Distribution Matching [104.33286163090179]
すなわち、強化信号へのアクセスがなく、遷移力学の知識がなく、環境とのさらなる相互作用もない。
1つの解決策は、既存のアルゴリズムをオフライン環境で動作させるために、見習いの学習に適合させることである。
しかし、このようなアプローチは、政治外の評価やオフラインモデルの推定に大きく依存しており、間接的で非効率である可能性がある。
優れたソリューションは、ポリシーを明示的にパラメータ化し、ロールアウトダイナミクスから暗黙的に学習し、完全にオフラインで運用できるべきだ、と私たちは主張する。
論文 参考訳(メタデータ) (2020-06-25T03:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。