論文の概要: Geometric Entropic Exploration
- arxiv url: http://arxiv.org/abs/2101.02055v2
- Date: Thu, 7 Jan 2021 12:57:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 00:06:03.921678
- Title: Geometric Entropic Exploration
- Title(参考訳): 幾何学的エントロピー探査
- Authors: Zhaohan Daniel Guo, Mohammad Gheshlaghi Azar, Alaa Saade, Shantanu
Thakoor, Bilal Piot, Bernardo Avila Pires, Michal Valko, Thomas Mesnard, Tor
Lattimore, R\'emi Munos
- Abstract要約: 離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムを導入する。
私たちの重要な理論的貢献は、単純で新しいノイズコントラストの客観的関数を最適化する牽引可能な問題としてジオメトリ認識MSVE探索を鋳造することです。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
- 参考スコア(独自算出の注目度): 52.67987687712534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is essential for solving complex Reinforcement Learning (RL)
tasks. Maximum State-Visitation Entropy (MSVE) formulates the exploration
problem as a well-defined policy optimization problem whose solution aims at
visiting all states as uniformly as possible. This is in contrast to standard
uncertainty-based approaches where exploration is transient and eventually
vanishes. However, existing approaches to MSVE are theoretically justified only
for discrete state-spaces as they are oblivious to the geometry of continuous
domains. We address this challenge by introducing Geometric Entropy
Maximisation (GEM), a new algorithm that maximises the geometry-aware Shannon
entropy of state-visits in both discrete and continuous domains. Our key
theoretical contribution is casting geometry-aware MSVE exploration as a
tractable problem of optimising a simple and novel noise-contrastive objective
function. In our experiments, we show the efficiency of GEM in solving several
RL problems with sparse rewards, compared against other deep RL exploration
approaches.
- Abstract(参考訳): 複雑な強化学習(RL)タスクの解決には探索が不可欠である。
最大状態振動エントロピー (MSVE) は、全ての州をできるだけ均一に訪問することを目的とした、明確な政策最適化問題として探索問題を定式化する。
これは、探索が過渡的で最終的に消滅する標準的な不確実性ベースのアプローチとは対照的である。
しかし、MSVEに対する既存のアプローチは、連続領域の幾何学に従わないため、離散状態空間に対してのみ理論的に正当化される。
離散領域と連続領域の両方における状態ビジットの幾何認識シャノンエントロピーを最大化する新しいアルゴリズムであるGeometric Entropy Maximisation (GEM)を導入することでこの問題に対処する。
我々の理論上の重要な貢献は、単純で新しいノイズ共生目的関数を最適化するための扱いやすい問題として、幾何学を意識したmsve探索をキャスティングすることである。
実験では,他の深部RL探査手法と比較して,疎度な報酬を伴う複数のRL問題の解法におけるGEMの効率性を示した。
関連論文リスト
- Combinatorial Optimization with Policy Adaptation using Latent Space Search [44.12073954093942]
本稿では,複雑なNPハード問題を解くために,パフォーマンスアルゴリズムを設計するための新しいアプローチを提案する。
我々の検索戦略は11の標準ベンチマークタスクにおける最先端のアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-11-13T12:24:54Z) - Exploring the topological sector optimization on quantum computers [5.458469081464264]
トポロジカルセクター最適化(TSO)問題は、量子多体物理学コミュニティにおいて特に関心を集めている。
TSO問題の最適化の難しさは、ギャップレス性に限らず、トポロジカル性にも起因していることを示す。
TSO問題を解決するために、量子コンピュータ上で実現可能な量子想像時間進化(QITE)を利用する。
論文 参考訳(メタデータ) (2023-10-06T14:51:07Z) - Energy-Guided Continuous Entropic Barycenter Estimation for General Costs [95.33926437521046]
任意のOTコスト関数に対して連続的エントロピーOT(EOT)バリセンタを近似する新しいアルゴリズムを提案する。
本手法は、弱いOTに基づくEOT問題の二重再構成に基づいている。
論文 参考訳(メタデータ) (2023-10-02T11:24:36Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - k-Means Maximum Entropy Exploration [55.81894038654918]
余分な報酬を伴う連続空間での探索は、強化学習におけるオープンな問題である。
本研究では, 状態訪問分布のエントロピーに対する近似値の低界化に基づく人工好奇性アルゴリズムを提案する。
提案手法は,高次元連続空間における探索のためのベンチマークにおいて,計算効率と競合性の両方を示す。
論文 参考訳(メタデータ) (2022-05-31T09:05:58Z) - Minimax Optimization: The Case of Convex-Submodular [50.03984152441271]
ミニマックス問題は連続領域を超えて連続離散領域や完全離散領域にまで拡張される。
連続変数に関して目的が凸であり、離散変数に関して部分モジュラーであるような凸-部分モジュラーミニマックス問題のクラスを導入する。
提案アルゴリズムは反復的であり、離散最適化と連続最適化の両方のツールを組み合わせる。
論文 参考訳(メタデータ) (2021-11-01T21:06:35Z) - Result Diversification by Multi-objective Evolutionary Algorithms with
Theoretical Guarantees [94.72461292387146]
両目的探索問題として結果の多様化問題を再構成し,多目的進化アルゴリズム(EA)を用いて解くことを提案する。
GSEMOが最適時間近似比1/2$を達成できることを理論的に証明する。
目的関数が動的に変化すると、GSEMOはこの近似比をランニングタイムで維持することができ、Borodinらによって提案されたオープンな問題に対処する。
論文 参考訳(メタデータ) (2021-10-18T14:00:22Z) - Exploitation and Exploration Analysis of Elitist Evolutionary
Algorithms: A Case Study [6.48717002317456]
本稿では、異なる統合領域で計算される成功確率と1段階改善率を用いて、エクスプロイトと探索を評価することを提案する。
ケーススタディは, (1+1) ランダムユニサーチと (1+1) 進化的プログラムの性能を球関数と不正な問題で解析することにより実施される。
論文 参考訳(メタデータ) (2020-01-29T16:21:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。