論文の概要: Adaptive Multi-Goal Exploration
- arxiv url: http://arxiv.org/abs/2111.12045v1
- Date: Tue, 23 Nov 2021 17:59:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 16:08:08.150928
- Title: Adaptive Multi-Goal Exploration
- Title(参考訳): 適応型マルチゴール探索
- Authors: Jean Tarbouriech, Omar Darwiche Domingues, Pierre M\'enard, Matteo
Pirotta, Michal Valko, Alessandro Lazaric
- Abstract要約: 我々は、AdaGoalが$epsilon$-optimal goal-conditioned policyを学習する目的を達成するためにどのように使えるかを示す。
AdaGoalは、ゴール条件の深い強化学習のための既存の手法の高レベルなアルゴリズム構造に固定されている。
- 参考スコア(独自算出の注目度): 118.40427257364729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a generic strategy for provably efficient multi-goal
exploration. It relies on AdaGoal, a novel goal selection scheme that is based
on a simple constrained optimization problem, which adaptively targets goal
states that are neither too difficult nor too easy to reach according to the
agent's current knowledge. We show how AdaGoal can be used to tackle the
objective of learning an $\epsilon$-optimal goal-conditioned policy for all the
goal states that are reachable within $L$ steps in expectation from a reference
state $s_0$ in a reward-free Markov decision process. In the tabular case with
$S$ states and $A$ actions, our algorithm requires $\tilde{O}(L^3 S A
\epsilon^{-2})$ exploration steps, which is nearly minimax optimal. We also
readily instantiate AdaGoal in linear mixture Markov decision processes, which
yields the first goal-oriented PAC guarantee with linear function
approximation. Beyond its strong theoretical guarantees, AdaGoal is anchored in
the high-level algorithmic structure of existing methods for goal-conditioned
deep reinforcement learning.
- Abstract(参考訳): 効率の良いマルチゴール探索のための汎用戦略を導入する。
これは単純な制約付き最適化問題に基づく新しいゴール選択スキームであり、エージェントの現在の知識に従えば難しすぎることもなく、到達しにくいゴール状態をターゲットにしている。
我々は、報酬のないマルコフ決定プロセスにおいて、基準状態から期待できる$l$のステップ以内に到達可能なすべての目標状態に対して、$\epsilon$-optimal goal-conditioned policyを学習する目的に、アダゴアルがどう使われるかを示す。
S$状態と$A$アクションの表形式の場合、我々のアルゴリズムは$\tilde{O}(L^3 S A \epsilon^{-2})$ Exploring stepsを必要とする。
また,AdaGoalを線形混合マルコフ決定過程で容易にインスタンス化し,線形関数近似を用いた最初の目標指向PAC保証を実現する。
その強力な理論的な保証を超えて、アダゴナルは目標条件付き深層強化学習の既存の方法の高レベルなアルゴリズム構造に根ざしている。
関連論文リスト
- Traversing Pareto Optimal Policies: Provably Efficient Multi-Objective Reinforcement Learning [14.260168974085376]
本稿では多目的強化学習(MORL)について検討する。
複数の報酬関数の存在下で最適なポリシーを学ぶことに焦点を当てている。
MORLの成功にもかかわらず、様々なMORL最適化目標と効率的な学習アルゴリズムについて十分な理解が得られていない。
論文 参考訳(メタデータ) (2024-07-24T17:58:49Z) - Scalable Online Exploration via Coverability [45.66375686120087]
探索は、特に関数近似を必要とする高次元領域において、強化学習において大きな課題である。
従来の探索手法を一般化し,3つの基本デシラタをサポートする新しい目的である$L_Coverageを導入する。
$L_Coverageは、カバー可能性の低いMDPにおけるオンライン(リワードフリーまたは報酬駆動)強化学習のための、最初の計算効率のよいモデルベースおよびモデルフリーのアルゴリズムを可能にする。
論文 参考訳(メタデータ) (2024-03-11T10:14:06Z) - A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Near-Optimal Algorithms for Autonomous Exploration and Multi-Goal
Stochastic Shortest Path [26.27529098205787]
我々はLim & Auer (2012) が提唱する漸進的な自律探査問題を再考する。
この設定では、エージェントは、$L$制御可能な状態に到達するために、最適に近い目標条件の一連のポリシーを学ぶことを目的としている。
既存のものよりも強いサンプル境界を持つ新しいアルゴリズムを導入する。
論文 参考訳(メタデータ) (2022-05-22T03:54:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Byzantine-Resilient Non-Convex Stochastic Gradient Descent [61.6382287971982]
敵対的レジリエントな分散最適化。
機械は独立して勾配を計算し 協力することができます
私達のアルゴリズムは新しい集中の技術およびサンプル複雑性に基づいています。
それは非常に実用的です:それはないときすべての前の方法の性能を改善します。
セッティングマシンがあります。
論文 参考訳(メタデータ) (2020-12-28T17:19:32Z) - Refined approachability algorithms and application to regret
minimization with global costs [0.38073142980732994]
ブラックウェルのアプローチ可能性 (Blackwell's approachability) は、2人のプレイヤー、すなわち意思決定者(Decision Maker)と環境(Environment)がベクター価値のペイオフで繰り返しゲームをする枠組みである。
我々は、ブラックウェルのアプローチ可能性のために、正規化リーダアルゴリズム(FTRL)のクラスを構築し、分析する。
この柔軟性により、これらのアルゴリズムを適用して、様々なオンライン学習問題への関心度を極力最小化することができる。
論文 参考訳(メタデータ) (2020-09-08T15:54:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。