論文の概要: Pausing Policy Learning in Non-stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.16053v1
- Date: Sat, 25 May 2024 04:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:19:52.441819
- Title: Pausing Policy Learning in Non-stationary Reinforcement Learning
- Title(参考訳): 非定常強化学習における舗装政策学習
- Authors: Hyunin Lee, Ming Jin, Javad Lavaei, Somayeh Sojoudi,
- Abstract要約: 意思決定を継続的に更新することは、時間的ギャップを最小限にするために最適である、という共通の信念に取り組む。
我々は,オンライン強化学習フレームワークの予測を提案し,戦略的に混乱した意思決定の更新により,全体的なパフォーマンスが向上することを示す。
- 参考スコア(独自算出の注目度): 23.147618992106867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-time inference is a challenge of real-world reinforcement learning due to temporal differences in time-varying environments: the system collects data from the past, updates the decision model in the present, and deploys it in the future. We tackle a common belief that continually updating the decision is optimal to minimize the temporal gap. We propose forecasting an online reinforcement learning framework and show that strategically pausing decision updates yields better overall performance by effectively managing aleatoric uncertainty. Theoretically, we compute an optimal ratio between policy update and hold duration, and show that a non-zero policy hold duration provides a sharper upper bound on the dynamic regret. Our experimental evaluations on three different environments also reveal that a non-zero policy hold duration yields higher rewards compared to continuous decision updates.
- Abstract(参考訳): リアルタイム推論は,過去からデータを収集し,現在における意思決定モデルを更新し,将来的な展開を行う,時間環境の時間的差異による実世界の強化学習の課題である。
意思決定を継続的に更新することは、時間的ギャップを最小限にするために最適である、という共通の信念に取り組む。
本稿では,オンライン強化学習フレームワークの予測について提案し,戦略的に緩和された決定更新により,効率よく照会の不確実性を管理することにより,全体的な性能が向上することを示す。
理論的には、ポリシー更新と保持期間の最適比を計算し、非ゼロポリシー保持期間が動的後悔に対してよりシャープな上限を与えることを示す。
また,3つの異なる環境における実験結果から,非ゼロポリシー保持期間が連続的な意思決定更新よりも高い報奨を得られることが明らかとなった。
関連論文リスト
- Time-Constrained Robust MDPs [28.641743425443]
我々は,多因子性,相関性,時間依存障害を考慮した新しい時間制約型ロバストMDP(TC-RMDP)の定式化を導入する。
本研究では、ロバストなRLにおける一般的な仮定を再考し、より実用的で現実的なRLアプリケーションを開発するための新たな道を開く。
論文 参考訳(メタデータ) (2024-06-12T16:45:09Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Lifelong Hyper-Policy Optimization with Multiple Importance Sampling
Regularization [40.17392342387002]
本稿では,その時にクエリされるポリシーのパラメータを出力する,入力が時間である超政治を学習する手法を提案する。
この超政治は、推定される将来のパフォーマンスを最大化し、重要サンプリングによって過去のデータを効率的に再利用するように訓練されている。
実環境において、最先端のアルゴリズムと比較して、我々のアプローチを実証的に検証する。
論文 参考訳(メタデータ) (2021-12-13T13:09:49Z) - Doubly Robust Interval Estimation for Optimal Policy Evaluation in
Online Learning [8.318053414415903]
本稿では,オンライン学習における政策評価の難しさを克服することを目的とする。
非最適行動を探索する確率を定量化する探索の確率を導出する。
そこで本稿では,推定された最適ポリシーの下で値を推定するために,二重頑健区間推定法(DREAM)を開発した。
論文 参考訳(メタデータ) (2021-10-29T02:38:54Z) - Pre-emptive learning-to-defer for sequential medical decision-making
under uncertainty [35.077494648756876]
本研究では,SLTD(Sequential Learning-to-Defer)を,逐次的意思決定設定において専門家に先入観を学習するためのフレームワークとして提案する。
SLTDは、力学の根底にある不確実性に基づいて、現在と後の遅延値を改善する可能性を測定する。
論文 参考訳(メタデータ) (2021-09-13T20:43:10Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Optimizing for the Future in Non-Stationary MDPs [52.373873622008944]
本稿では,今後の性能予測を最大化するポリシ勾配アルゴリズムを提案する。
我々のアルゴリズムであるPrognosticatorは2つのオンライン適応手法よりも非定常性に頑健であることを示す。
論文 参考訳(メタデータ) (2020-05-17T03:41:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。