論文の概要: Near-optimal Policy Identification in Active Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.09510v1
- Date: Mon, 19 Dec 2022 14:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:34:44.656831
- Title: Near-optimal Policy Identification in Active Reinforcement Learning
- Title(参考訳): 能動強化学習における近最適政策同定
- Authors: Xiang Li, Viraj Mehta, Johannes Kirschner, Ian Char, Willie
Neiswanger, Jeff Schneider, Andreas Krause, Ilija Bogunovic
- Abstract要約: AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 84.27592560211909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world reinforcement learning tasks require control of complex
dynamical systems that involve both costly data acquisition processes and large
state spaces. In cases where the transition dynamics can be readily evaluated
at specified states (e.g., via a simulator), agents can operate in what is
often referred to as planning with a \emph{generative model}. We propose the
AE-LSVI algorithm for best-policy identification, a novel variant of the
kernelized least-squares value iteration (LSVI) algorithm that combines
optimism with pessimism for active exploration (AE). AE-LSVI provably
identifies a near-optimal policy \emph{uniformly} over an entire state space
and achieves polynomial sample complexity guarantees that are independent of
the number of states. When specialized to the recently introduced offline
contextual Bayesian optimization setting, our algorithm achieves improved
sample complexity bounds. Experimentally, we demonstrate that AE-LSVI
outperforms other RL algorithms in a variety of environments when robustness to
the initial state is required.
- Abstract(参考訳): 多くの現実世界の強化学習タスクは、コストのかかるデータ取得プロセスと大きな状態空間の両方を含む複雑な動的システムの制御を必要とする。
遷移力学が特定の状態(例えばシミュレーターを通して)で容易に評価できる場合、エージェントは、しばしば \emph{generative model} で計画と呼ばれるものを扱うことができる。
AE-LSVIアルゴリズムは,最適化とペシミズムを組み合わせた最小二乗値反復法(LSVI)アルゴリズムの新たな変種である。
AE-LSVIは、状態空間全体に対する準最適ポリシー \emph{uniformly} を確実に特定し、状態数に依存しない多項式サンプルの複雑性を保証する。
最近導入されたオフラインコンテキストベイズ最適化設定に特化したアルゴリズムでは,サンプル複雑性境界の改善を実現する。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のRLアルゴリズムよりも優れていることを示す。
関連論文リスト
- RL in Markov Games with Independent Function Approximation: Improved Sample Complexity Bound under the Local Access Model [15.596599935486534]
シミュレータへの局所アクセスを伴う粗相関平衡(CCE)を学習するための新しいアルゴリズムLin-Confident-FTRLを導入する。
状態空間のサイズに対数的依存がある限り、Lin-Confident-FTRLは証明可能な最適精度で$O(epsilon-2)$で$epsilon$-CCEを学ぶ。
本分析は,単一エージェントのローカルプランニング文献における仮想ポリシー境界を一般化する。
論文 参考訳(メタデータ) (2024-03-18T07:54:11Z) - Faster Stochastic Variance Reduction Methods for Compositional MiniMax
Optimization [50.10952609321302]
合成ミニマックス最適化は、さまざまな機械学習領域において重要な課題である。
構成最小最適化の現在の方法は、最適以下の複雑さや、大きなバッチサイズに大きく依存することによって悩まされている。
本稿では,Nested STOchastic Recursive Momentum (NSTORM)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T14:57:21Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Embed to Control Partially Observed Systems: Representation Learning with Provable Sample Efficiency [105.17746223041954]
部分的に観察されたマルコフ決定過程(POMDP)における強化学習は2つの課題に直面している。
しばしば、未来を予測するのに完全な歴史を要し、地平線と指数関数的にスケールするサンプルの複雑さを誘導する。
本稿では,2段階の表現を最適化しながら学習するETC(Embed to Control)という強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-05-26T16:34:46Z) - Reinforcement Learning for Adaptive Mesh Refinement [63.7867809197671]
マルコフ決定過程としてのAMRの新規な定式化を提案し,シミュレーションから直接改良政策を訓練するために深部強化学習を適用した。
これらのポリシーアーキテクチャのモデルサイズはメッシュサイズに依存しないため、任意に大きく複雑なシミュレーションにスケールします。
論文 参考訳(メタデータ) (2021-03-01T22:55:48Z) - Adaptive Sampling for Best Policy Identification in Markov Decision
Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。
最先端アルゴリズムの利点を論じ、解説する。
論文 参考訳(メタデータ) (2020-09-28T15:22:24Z) - On the Sample Complexity of Reinforcement Learning with Policy Space
Generalization [21.879621917722613]
政策空間の一般化を伴う大規模強化学習(RL)問題における最適なサンプル複雑性について検討する。
既存の結果は、一般化モデルがなければ、RLアルゴリズムのサンプルの複雑さは必然的に状態空間と行動空間の濃度に依存することを示している。
本稿では,政策学習の本質的な複雑さを特徴付ける,政策空間におけるユーラダー次元の新たな概念を提案する。
論文 参考訳(メタデータ) (2020-08-17T14:26:18Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。