論文の概要: Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration
- arxiv url: http://arxiv.org/abs/2305.19476v3
- Date: Thu, 8 Aug 2024 19:48:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-12 21:01:50.363778
- Title: Accelerating Reinforcement Learning with Value-Conditional State Entropy Exploration
- Title(参考訳): バリューコンディション状態エントロピー探索による強化学習の高速化
- Authors: Dongyoung Kim, Jinwoo Shin, Pieter Abbeel, Younggyo Seo,
- Abstract要約: 探索のための有望な技術は、訪問状態分布のエントロピーを最大化することである。
エージェントが高価値の状態を訪問することを好むような、タスク報酬を伴う教師付きセットアップで苦労する傾向があります。
本稿では,値条件のエントロピーを最大化する新しい探索手法を提案する。
- 参考スコア(独自算出の注目度): 97.19464604735802
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A promising technique for exploration is to maximize the entropy of visited state distribution, i.e., state entropy, by encouraging uniform coverage of visited state space. While it has been effective for an unsupervised setup, it tends to struggle in a supervised setup with a task reward, where an agent prefers to visit high-value states to exploit the task reward. Such a preference can cause an imbalance between the distributions of high-value states and low-value states, which biases exploration towards low-value state regions as a result of the state entropy increasing when the distribution becomes more uniform. This issue is exacerbated when high-value states are narrowly distributed within the state space, making it difficult for the agent to complete the tasks. In this paper, we present a novel exploration technique that maximizes the value-conditional state entropy, which separately estimates the state entropies that are conditioned on the value estimates of each state, then maximizes their average. By only considering the visited states with similar value estimates for computing the intrinsic bonus, our method prevents the distribution of low-value states from affecting exploration around high-value states, and vice versa. We demonstrate that the proposed alternative to the state entropy baseline significantly accelerates various reinforcement learning algorithms across a variety of tasks within MiniGrid, DeepMind Control Suite, and Meta-World benchmarks. Source code is available at https://sites.google.com/view/rl-vcse.
- Abstract(参考訳): 探索のための有望な技術は、訪問状態空間の均一なカバレッジを奨励することによって、訪問状態分布のエントロピー、すなわち状態エントロピーの最大化である。
教師なしのセットアップでは有効だが、エージェントがタスク報酬を利用するために高価値の状態を訪問することを好んだ場合、タスク報酬を伴う教師付きセットアップで苦労する傾向がある。
このような選好は、分布がより均一になったときに増加する状態エントロピーの結果、低値状態領域への探索をバイアスする高値状態と低値状態の分布の不均衡を引き起こす。
この問題は、高値状態が状態空間内で狭く分散されているときに悪化し、エージェントがタスクを完了するのが難しくなる。
本稿では,各状態の値推定に基づいて条件付き状態エントロピーを別々に推定し,その平均値を最大化する新しい探索手法を提案する。
本手法は,固有ボーナスの計算に類似した値推定値を持つ訪問状態のみを考慮し,低値状態の分布が高値状態の探索に影響を与えることを防止し,その逆も抑制する。
提案手法は,MiniGrid,DeepMind Control Suite,Meta-Worldベンチマークの各タスクにおける各種強化学習アルゴリズムを,状態エントロピーベースラインの代替として大幅に高速化することを示す。
ソースコードはhttps://sites.google.com/view/rl-vcse.comで入手できる。
関連論文リスト
- The Limits of Pure Exploration in POMDPs: When the Observation Entropy is Enough [40.82741665804367]
そこで本研究では,観測上のエントロピーを最大化するための簡単なアプローチについて検討する。
観測エントロピーの正規化を計算し、原理的性能を向上させるために、後者の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2024-06-18T17:00:13Z) - How to Explore with Belief: State Entropy Maximization in POMDPs [40.82741665804367]
我々は、**状態で定義された目的の1次緩和に対処するために、メモリと効率的な*政治*手法を開発する。
本稿では、アプリケーションの課題を満たすより現実的な領域に状態エントロピーを一般化することを目的とする。
論文 参考訳(メタデータ) (2024-06-04T13:16:34Z) - Modeling State Shifting via Local-Global Distillation for Event-Frame Gaze Tracking [61.44701715285463]
本稿では,イベントデータとフレームデータの両方を用いた受動的視線推定の問題に取り組む。
我々は、現在の状態からいくつかの事前登録されたアンカー状態に移行する状態の定量化として、視線推定を再構成する。
大規模視線推定ネットワークを直接学習する代わりに,地域の専門家グループと学生ネットワークを連携させることにより,一般化能力の向上を図る。
論文 参考訳(メタデータ) (2024-03-31T03:30:37Z) - Efficient Reinforcement Learning with Impaired Observability: Learning
to Act with Delayed and Missing State Observations [92.25604137490168]
本稿では,制御系における効率的な強化学習に関する理論的研究を紹介する。
遅延および欠落した観測条件において,RL に対して $tildemathcalO(sqrtrm poly(H) SAK)$ という形でアルゴリズムを提示し,その上限と下限をほぼ最適に設定する。
論文 参考訳(メタデータ) (2023-06-02T02:46:39Z) - Scaling Marginalized Importance Sampling to High-Dimensional
State-Spaces via State Abstraction [5.150752343250592]
強化学習(RL)における非政治評価の問題点について考察する。
我々は,高次元状態空間を低次元状態空間に投影することにより,OPE推定器の精度を向上させることを提案する。
論文 参考訳(メタデータ) (2022-12-14T20:07:33Z) - Distributed Q-Learning with State Tracking for Multi-agent Networked
Control [61.63442612938345]
本稿では,LQR(Linear Quadratic Regulator)のマルチエージェントネットワークにおける分散Q-ラーニングについて検討する。
エージェントに最適なコントローラを設計するための状態追跡(ST)ベースのQ-ラーニングアルゴリズムを考案する。
論文 参考訳(メタデータ) (2020-12-22T22:03:49Z) - A New Bandit Setting Balancing Information from State Evolution and
Corrupted Context [52.67844649650687]
本稿では,2つの確立されたオンライン学習問題と包括的フィードバックを組み合わせた,逐次的意思決定方式を提案する。
任意の瞬間にプレーする最適なアクションは、エージェントによって直接観察できない基礎となる変化状態に付随する。
本稿では,レフェリーを用いて,コンテキストブレイジットとマルチアームブレイジットのポリシーを動的に組み合わせるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-16T14:35:37Z) - Exploring Unknown States with Action Balance [48.330318997735574]
探索は強化学習の鍵となる問題である。
次状態ボーナス法は、エージェントが既知の州を探索する際に過度に注意を払うよう強制する。
本研究では,与えられた状態における各行動を選択する頻度のバランスをとるアクションバランス探索を提案する。
論文 参考訳(メタデータ) (2020-03-10T03:32:28Z) - Witnessing Negative Conditional Entropy [0.0]
両部系に対して負の条件エントロピーを持つ状態を検出するためのエルミート作用素の存在を証明した。
特定の証人に対して、推定された厳密な上限は、ワーナー状態の条件エントロピーの値と一致する。
論文 参考訳(メタデータ) (2020-01-30T10:08:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。