論文の概要: Accelerating Reinforcement Learning with Value-Conditional State Entropy
Exploration
- arxiv url: http://arxiv.org/abs/2305.19476v1
- Date: Wed, 31 May 2023 01:09:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 19:07:32.564290
- Title: Accelerating Reinforcement Learning with Value-Conditional State Entropy
Exploration
- Title(参考訳): 価値条件エントロピー探索による強化学習の促進
- Authors: Dongyoung Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo
- Abstract要約: 探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
- 参考スコア(独自算出の注目度): 133.34509584062155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising technique for exploration is to maximize the entropy of visited
state distribution, i.e., state entropy, by encouraging uniform coverage of
visited state space. While it has been effective for an unsupervised setup, it
tends to struggle in a supervised setup with a task reward, where an agent
prefers to visit high-value states to exploit the task reward. Such a
preference can cause an imbalance between the distributions of high-value
states and low-value states, which biases exploration towards low-value state
regions as a result of the state entropy increasing when the distribution
becomes more uniform. This issue is exacerbated when high-value states are
narrowly distributed within the state space, making it difficult for the agent
to complete the tasks. In this paper, we present a novel exploration technique
that maximizes the value-conditional state entropy, which separately estimates
the state entropies that are conditioned on the value estimates of each state,
then maximizes their average. By only considering the visited states with
similar value estimates for computing the intrinsic bonus, our method prevents
the distribution of low-value states from affecting exploration around
high-value states, and vice versa. We demonstrate that the proposed alternative
to the state entropy baseline significantly accelerates various reinforcement
learning algorithms across a variety of tasks within MiniGrid, DeepMind Control
Suite, and Meta-World benchmarks. Source code is available at
https://sites.google.com/view/rl-vcse.
- Abstract(参考訳): 探索のための有望な技術は、訪問状態空間の均一なカバレッジを奨励することによって、訪問状態分布のエントロピー、すなわち状態エントロピーの最大化である。
教師なしのセットアップでは有効だが、エージェントがタスク報酬を利用するために高価値の状態を訪問することを好んだ場合、タスク報酬を伴う教師付きセットアップで苦労する傾向がある。
このような選好は、分布がより均一になったときに増加する状態エントロピーの結果、低値状態領域への探索をバイアスする高値状態と低値状態の分布の不均衡を引き起こす。
この問題は、高値状態が状態空間内で狭く分散している場合に悪化し、エージェントがタスクを完了するのが難しくなる。
本稿では,各状態の値推定に基づく状態エントロピーを別々に推定し,その平均を最大化する,価値条件状態エントロピーを最大化する新しい探索手法を提案する。
本手法は,類似した値推定値を持つ訪問状態の固有ボーナス計算のみを考慮すれば,低値状態の分布が高値状態の探索に影響を与えることを防ぎ,その逆も防止できる。
提案手法は,MiniGrid,DeepMind Control Suite,Meta-Worldベンチマークの各タスクにおける各種強化学習アルゴリズムを,状態エントロピーベースラインの代替として大幅に高速化することを示す。
ソースコードはhttps://sites.google.com/view/rl-vcseで入手できる。
関連論文リスト
- Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Scaling Marginalized Importance Sampling to High-Dimensional
State-Spaces via State Abstraction [5.150752343250592]
強化学習(RL)における非政治評価の問題点について考察する。
我々は,高次元状態空間を低次元状態空間に投影することにより,OPE推定器の精度を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-14T20:07:33Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Curious Explorer: a provable exploration strategy in Policy Learning [0.0]
我々は,新規かつ簡便な状態空間探索戦略であるCurious Explorerを開発した。
Curious Explorerは$rho$から始まり、不訪問状態のセットに割り当てられた固有の報酬を使用することで、一連のポリシーを生成する。
我々は、Curious Explorerが、挑戦的な探索を行い、MDPの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-06-29T15:31:51Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - Witnessing Negative Conditional Entropy [0.0]
両部系に対して負の条件エントロピーを持つ状態を検出するためのエルミート作用素の存在を証明した。
特定の証人に対して、推定された厳密な上限は、ワーナー状態の条件エントロピーの値と一致する。
論文 参考訳(メタデータ) (2020-01-30T10:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。