論文の概要: Non-stationary Reinforcement Learning under General Function
Approximation
- arxiv url: http://arxiv.org/abs/2306.00861v1
- Date: Thu, 1 Jun 2023 16:19:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 14:35:42.305734
- Title: Non-stationary Reinforcement Learning under General Function
Approximation
- Title(参考訳): 一般関数近似による非定常強化学習
- Authors: Songtao Feng, Ming Yin, Ruiquan Huang, Yu-Xiang Wang, Jing Yang,
Yingbin Liang
- Abstract要約: まず,非定常MDPに対する動的ベルマンエルダー次元(DBE)と呼ばれる新しい複雑性指標を提案する。
提案する複雑性指標に基づいて,SW-OPEAと呼ばれる新しい信頼度セットに基づくモデルフリーアルゴリズムを提案する。
SW-OPEAは,変動予算がそれほど大きくない限り,有効に有効であることを示す。
- 参考スコア(独自算出の注目度): 60.430936031067006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: General function approximation is a powerful tool to handle large state and
action spaces in a broad range of reinforcement learning (RL) scenarios.
However, theoretical understanding of non-stationary MDPs with general function
approximation is still limited. In this paper, we make the first such an
attempt. We first propose a new complexity metric called dynamic Bellman Eluder
(DBE) dimension for non-stationary MDPs, which subsumes majority of existing
tractable RL problems in static MDPs as well as non-stationary MDPs. Based on
the proposed complexity metric, we propose a novel confidence-set based
model-free algorithm called SW-OPEA, which features a sliding window mechanism
and a new confidence set design for non-stationary MDPs. We then establish an
upper bound on the dynamic regret for the proposed algorithm, and show that
SW-OPEA is provably efficient as long as the variation budget is not
significantly large. We further demonstrate via examples of non-stationary
linear and tabular MDPs that our algorithm performs better in small variation
budget scenario than the existing UCB-type algorithms. To the best of our
knowledge, this is the first dynamic regret analysis in non-stationary MDPs
with general function approximation.
- Abstract(参考訳): 一般関数近似は、広範囲の強化学習(RL)シナリオにおいて、大きな状態と行動空間を扱う強力なツールである。
しかし、一般関数近似を用いた非定常MDPの理論的理解はまだ限られている。
本稿では,このような試みを初めて行う。
まず,非定常MDPに対する動的ベルマン・エルダー次元(DBE)と呼ばれる新しい複雑性指標を提案し,静的MDPおよび非定常MDPにおける既存の抽出可能なRL問題の大部分を仮定する。
提案手法は,非定常MDPに対するスライディングウインドウ機構と新しい信頼度セット設計を特徴とする,SW-OPEAと呼ばれる新しい信頼度セットベースモデルフリーアルゴリズムを提案する。
次に,提案アルゴリズムの動的後悔の上限を定式化し,変動予算がそれほど大きくない場合,sw-opea が有効であることを示す。
さらに,非定常線形および表型MDPの例を通して,提案アルゴリズムが既存の UCB 型アルゴリズムよりも小さな変動予算シナリオで優れていることを示す。
我々の知る限り、これは一般関数近似を用いた非定常MDPにおける最初の動的後悔解析である。
関連論文リスト
- Q-learning for Quantile MDPs: A Decomposition, Performance, and Convergence Analysis [30.713243690224207]
マルコフ決定過程(MDPs)において、バリュー・アット・リスク(Value-at-Risk)のような量子リスク尺度は、特定の結果に対するRLエージェントの嗜好をモデル化するための標準指標である。
本稿では,強い収束と性能保証を有するMDPにおける量子化最適化のための新しいQ-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:53:20Z) - Two-Stage ML-Guided Decision Rules for Sequential Decision Making under Uncertainty [55.06411438416805]
SDMU (Sequential Decision Making Under Uncertainty) は、エネルギー、金融、サプライチェーンといった多くの領域において、ユビキタスである。
いくつかのSDMUは、自然にマルチステージ問題(MSP)としてモデル化されているが、結果として得られる最適化は、計算の観点からは明らかに困難である。
本稿では,2段階の一般決定規則(TS-GDR)を導入し,線形関数を超えて政策空間を一般化する手法を提案する。
TS-GDRの有効性は、TS-LDR(Two-Stage Deep Decision Rules)と呼ばれるディープリカレントニューラルネットワークを用いたインスタンス化によって実証される。
論文 参考訳(メタデータ) (2024-05-23T18:19:47Z) - Efficient Duple Perturbation Robustness in Low-rank MDPs [14.53555781866821]
低ランクマルコフ決定過程(MDP)における特徴ベクトルおよび因子ベクトルの摂動という二重頑健性を導入する。
新たなロバストな MDP の定式化は関数表現のビューと互換性があり、従って、大または連続な状態-作用空間を持つ実践的な RL 問題に自然に適用できる。
また、理論収束率を保証した証明可能な効率的で実用的なアルゴリズムがもたらされる。
論文 参考訳(メタデータ) (2024-04-11T19:07:15Z) - Provably Efficient Algorithm for Nonstationary Low-Rank MDPs [48.92657638730582]
我々は,非定常RLを,遷移カーネルと報酬の両方が時間とともに変化するような,エピソードな低ランクMDPで調査する最初の試みを行っている。
本稿では,パラメータ依存型ポリシ最適化アルゴリズムである Portal を提案し,パラメータフリー版である Ada-Portal の Portal をさらに改良する。
両アルゴリズムとも,非定常性が著しく大きくない限り, Portal と Ada-PortAL はサンプリング効率が良く,サンプリング複雑性を伴う平均的動的準最適ギャップを任意に小さく得ることを示す。
論文 参考訳(メタデータ) (2023-08-10T09:52:44Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。