Fugu-MT 論文翻訳(概要): Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism

論文の概要: Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism

arxiv url: http://arxiv.org/abs/2006.14389v1
Date: Wed, 24 Jun 2020 15:40:21 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-17 09:42:43.771987
Title: Reinforcement Learning for Non-Stationary Markov Decision Processes: The Blessing of (More) Optimism
Title（参考訳）: 非定常マルコフ決定過程に対する強化学習--(さらに)楽観主義の祝福
Authors: Wang Chi Cheung, David Simchi-Levi, Ruihao Zhu
Abstract要約: 非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)について考察する。まず, 信頼性拡張学習(SWUCRL2-CW) アルゴリズムを用いて, Sliding Window Up-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) を提案する。 SWUCRL2-CWアルゴリズムを適応的に調整し,同じダイナミックなリセット境界を実現するBORLアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 25.20231604057821
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider un-discounted reinforcement learning (RL) in Markov decision processes (MDPs) under drifting non-stationarity, i.e., both the reward and state transition distributions are allowed to evolve over time, as long as their respective total variations, quantified by suitable metrics, do not exceed certain variation budgets. We first develop the Sliding Window Upper-Confidence bound for Reinforcement Learning with Confidence Widening (SWUCRL2-CW) algorithm, and establish its dynamic regret bound when the variation budgets are known. In addition, we propose the Bandit-over-Reinforcement Learning (BORL) algorithm to adaptively tune the SWUCRL2-CW algorithm to achieve the same dynamic regret bound, but in a parameter-free manner, i.e., without knowing the variation budgets. Notably, learning non-stationary MDPs via the conventional optimistic exploration technique presents a unique challenge absent in existing (non-stationary) bandit learning settings. We overcome the challenge by a novel confidence widening technique that incorporates additional optimism.
Abstract（参考訳）: 非定常条件下でのマルコフ決定過程(MDP)におけるRL(un-discounted reinforcement learning)を考察する。すなわち、それぞれの総変動が適切な指標によって定量化される限り、報酬と状態遷移の分布は時間とともに進化することが許される。まず,信頼度拡大(swucrl2-cw)アルゴリズムを用いた強化学習のためのスライディングウィンドウ上信頼度バウンドを開発し,変動予算が分かっている場合にその動的後悔バウンドを確立する。さらに,swucrl2-cwアルゴリズムを適応的にチューニングし,同じ動的後悔境界を達成するためのバンドイットオーバー強化学習(borl)アルゴリズムを提案する。特に,従来の楽観的探索手法による非定常的MDPの学習は,既存の(静止的でない)バンドレート学習環境に存在しないユニークな課題を示す。我々は、さらなる楽観主義を組み込んだ新しい信頼拡大技術によって、この課題を克服する。

関連論文リスト

Robust Offline Reinforcement Learning for Non-Markovian Decision Processes [48.9399496805422]
本研究では,ロバストな非マルコフRLの学習問題について検討する。本研究では,不確実性セットの異なるタイプ下でのロバストな値に対して,新しいデータセット蒸留と低信頼境界(LCB)設計を導入する。さらに、オフラインの低ランク非マルコフ決定プロセスに適した新しいI型集中係数を導入することにより、我々のアルゴリズムが$epsilon$-optimal robust policyを見つけることができることを証明した。
論文参考訳（メタデータ） (2024-11-12T03:22:56Z)
Burning RED: Unlocking Subtask-Driven Reinforcement Learning and Risk-Awareness in Average-Reward Markov Decision Processes [7.028778922533688]
平均回帰マルコフ決定プロセス(MDPs)は、不確実性の下でのシーケンシャルな意思決定の基盤となる枠組みを提供する。本稿では,Reward-Extended Differential(RED)強化学習について紹介する。Reward-Extended Differential(RED)強化学習は,様々な学習目的,すなわちサブタスクを,平均リワード設定で同時に効果的かつ効率的に解ける新しいRLフレームワークである。
論文参考訳（メタデータ） (2024-10-14T14:52:23Z)
Model-Based Epistemic Variance of Values for Risk-Aware Policy Optimization [59.758009422067]
モデルベース強化学習における累積報酬に対する不確実性を定量化する問題を考察する。我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式(UBE)を提案する。本稿では,リスク・サーキングとリスク・アバース・ポリシー最適化のいずれにも適用可能な汎用ポリシー最適化アルゴリズムQ-Uncertainty Soft Actor-Critic (QU-SAC)を導入する。
論文参考訳（メタデータ） (2023-12-07T15:55:58Z)
Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文参考訳（メタデータ） (2023-05-24T17:26:22Z)
Non-stationary Risk-sensitive Reinforcement Learning: Near-optimal Dynamic Regret, Adaptive Detection, and Separation Design [9.554944575754638]
エピソード非定常マルコフ決定過程(MDP)におけるエントロピー的リスク尺度に基づくリスク感受性強化学習(RL)について検討する。本稿では,再起動型アルゴリズムであるRestart-RSMBとRestart-RSQを提案する。この研究は、文献における非定常リスク感受性RLに対する最初の非漸近的理論解析を提供する。
論文参考訳（メタデータ） (2022-11-19T22:40:09Z)
Opportunistic Episodic Reinforcement Learning [9.364712393700056]
機会論的強化学習(英: opportunistic reinforcement learning)は、変分因子として知られる外部環境条件下で、最適な行動を選択することの後悔が変化する強化学習の新たな変種である。我々の直感は、変動係数が高いときにさらに活用し、変動係数が低いときにさらに探索することである。我々のアルゴリズムは、探索をガイドするために変動係数に依存した楽観性を導入することで、強化学習のための探索・探索トレードオフのバランスをとる。
論文参考訳（メタデータ） (2022-10-24T18:02:33Z)
Fundamental Limits of Reinforcement Learning in Environment with Endogeneous and Exogeneous Uncertainty [5.117030416610515]
オンライン強化学習(RL)は情報処理のシナリオに広く応用されている。一般のマルコフ決定過程(MDP)において、不均一なRLを内在的および外在的不確実性とみなす。我々は、文献の最新の結果と比較して、少なくとも$sqrtS$または$Sfrac16Tfrac112$で保存の後悔の限界を確立する。
論文参考訳（メタデータ） (2021-06-15T22:57:45Z)
Low-Precision Reinforcement Learning [63.930246183244705]
教師付き学習における計算時間、メモリフットプリント、エネルギー消費を減らすために、低精度トレーニングが一般的なアプローチになっている。本稿では,最先端のsacエージェントを用いた継続的制御について検討し,教師あり学習による低精度適応が失敗することを実証する。
論文参考訳（メタデータ） (2021-02-26T16:16:28Z)
Nonstationary Reinforcement Learning with Linear Function Approximation [19.521419943509784]
ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習について考察する。まず、周期的再起動を伴う最小二乗値の楽観的な修正を開発し、変動予算が分かっている場合にその動的後悔を束縛する。非定常線型 MDP に対する最初の minimax dynamic regret lower bound を導出し、副生成物として Jin らによって未解決の線型 MDP に対する minimax regret lower bound を定めている。
論文参考訳（メタデータ） (2020-10-08T20:07:44Z)
Reparameterized Variational Divergence Minimization for Stable Imitation [57.06909373038396]
確率的発散の選択における変動が、より高性能なILOアルゴリズムをもたらす可能性について検討する。本稿では,提案する$f$-divergence最小化フレームワークの課題を軽減するために,逆模倣学習のための再パラメータ化手法を提案する。経験的に、我々の設計選択は、ベースラインアプローチより優れ、低次元連続制御タスクにおける専門家のパフォーマンスとより密に適合するIOOアルゴリズムを許容することを示した。
論文参考訳（メタデータ） (2020-06-18T19:04:09Z)
Upper Confidence Primal-Dual Reinforcement Learning for CMDP with Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文参考訳（メタデータ） (2020-03-02T05:02:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。