論文の概要: Fast Rates for Maximum Entropy Exploration
- arxiv url: http://arxiv.org/abs/2303.08059v2
- Date: Tue, 6 Jun 2023 13:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 20:25:43.315008
- Title: Fast Rates for Maximum Entropy Exploration
- Title(参考訳): 最大エントロピー探査のための高速速度
- Authors: Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines,
Remi Munos, Alexey Naumov, Pierre Perrault, Yunhao Tang, Michal Valko, Pierre
Menard
- Abstract要約: エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。
本研究では,最大エントロピー探索問題を2つの異なるタイプで検討する。
訪問エントロピーには、$widetildemathcalO(H3S2A/varepsilon2)$ sample complexity を持つゲーム理論アルゴリズムを提案する。
軌道エントロピーに対しては,次数$widetildemathcalO(mathrmpoly(S,)の複雑さのサンプルを持つ単純なアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 52.946307632704645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the challenge of exploration in reinforcement learning (RL) when
the agent operates in an unknown environment with sparse or no rewards. In this
work, we study the maximum entropy exploration problem of two different types.
The first type is visitation entropy maximization previously considered by
Hazan et al.(2019) in the discounted setting. For this type of exploration, we
propose a game-theoretic algorithm that has
$\widetilde{\mathcal{O}}(H^3S^2A/\varepsilon^2)$ sample complexity thus
improving the $\varepsilon$-dependence upon existing results, where $S$ is a
number of states, $A$ is a number of actions, $H$ is an episode length, and
$\varepsilon$ is a desired accuracy. The second type of entropy we study is the
trajectory entropy. This objective function is closely related to the
entropy-regularized MDPs, and we propose a simple algorithm that has a sample
complexity of order
$\widetilde{\mathcal{O}}(\mathrm{poly}(S,A,H)/\varepsilon)$. Interestingly, it
is the first theoretical result in RL literature that establishes the potential
statistical advantage of regularized MDPs for exploration. Finally, we apply
developed regularization techniques to reduce sample complexity of visitation
entropy maximization to $\widetilde{\mathcal{O}}(H^2SA/\varepsilon^2)$,
yielding a statistical separation between maximum entropy exploration and
reward-free exploration.
- Abstract(参考訳): エージェントが未知の環境下で活動し、報酬が得られない場合、強化学習(RL)における探索の課題に対処する。
本研究では,2種類のエントロピー探索問題について検討する。
最初のタイプは以前Hazanらによって検討された訪問エントロピー最大化である。
(2019年)割引設定。
このタイプの探索のために、$\widetilde{\mathcal{O}}(H^3S^2A/\varepsilon^2)$サンプル複雑性を持つゲーム理論アルゴリズムを提案し、既存の結果に対する$\varepsilon$-dependenceを改善する。
我々が研究している2つ目のエントロピーは軌道エントロピーである。
この目的関数はエントロピー規則化された MDP と密接に関連しており、次数$\widetilde{\mathcal{O}}(\mathrm{poly}(S,A,H)/\varepsilon)$ のサンプル複雑性を持つ単純なアルゴリズムを提案する。
興味深いことに、これは正規化mdpの探索に対する潜在的な統計的利点を確立するrl文学における最初の理論的な結果である。
最後に,訪問エントロピー最大化のサンプル複雑性を$\widetilde{\mathcal{O}}(H^2SA/\varepsilon^2)$に減らし,最大エントロピー探索と無報酬探索を統計的に分離する手法を開発した。
関連論文リスト
- Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - Sublinear quantum algorithms for estimating von Neumann entropy [18.30551855632791]
我々は、確率分布のシャノンエントロピーと混合量子状態のフォン・ノイマンエントロピーの乗法係数$gamma>1$における推定値を得る問題を研究する。
我々は古典的確率分布と混合量子状態の両方を扱える量子純粋クエリーアクセスモデルに取り組んでおり、文献の中では最も一般的な入力モデルである。
論文 参考訳(メタデータ) (2021-11-22T12:00:45Z) - Reward-Free Model-Based Reinforcement Learning with Linear Function
Approximation [92.99933928528797]
エピソードマルコフ決定過程(MDP)に対する線形関数近似を用いたモデルに基づく無報酬強化学習について検討する。
計画段階では、特定の報酬関数が与えられ、探索フェーズから収集したサンプルを使用して良い政策を学ぶ。
任意の報酬関数に対して$epsilon$-optimal Policyを得るには,最大$tilde O(H4d(H + d)epsilon-2)$ episodesをサンプリングする必要がある。
論文 参考訳(メタデータ) (2021-10-12T23:03:58Z) - Gap-Dependent Unsupervised Exploration for Reinforcement Learning [40.990467706237396]
タスクに依存しない強化学習のための効率的なアルゴリズムを提案する。
このアルゴリズムは1/epsilon cdot (H3SA / rho + H4 S2 A) の$widetildemathcalOのみを探索する。
情報理論上、この境界は$rho Theta (1/(HS))$と$H>1$に対してほぼ厳密であることを示す。
論文 参考訳(メタデータ) (2021-08-11T20:42:46Z) - Improved Sample Complexity for Incremental Autonomous Exploration in
MDPs [132.88757893161699]
我々は $epsilon$-optimal 目標条件付きポリシーのセットを学び、$ L$ ステップ内で段階的に到達可能なすべての状態を達成します。
DisCoは、コストに敏感な最短経路問題に対して$epsilon/c_min$-optimalポリシーを返すことができる最初のアルゴリズムです。
論文 参考訳(メタデータ) (2020-12-29T14:06:09Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。