論文の概要: Fixed $\beta$-VAE Encoding for Curious Exploration in Complex 3D
Environments
- arxiv url: http://arxiv.org/abs/2105.08568v1
- Date: Tue, 18 May 2021 14:52:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 18:04:46.404506
- Title: Fixed $\beta$-VAE Encoding for Curious Exploration in Complex 3D
Environments
- Title(参考訳): 複雑な3次元環境におけるキュラス探索のための$\beta$-VAE符号化
- Authors: Auguste Lehuger, Matthew Crosby
- Abstract要約: 固定された$beta$-VAEエンコーディングが好奇心で効果的に利用できることを示す。
これとカリキュラム学習を組み合わせて、未解決の探索集約的なタスクを解決します。
また、Atari Breakoutの結果を、ランダムな機能や逆動的機能よりも優れたカスタムエンコーディングと関連付けています。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curiosity is a general method for augmenting an environment reward with an
intrinsic reward, which encourages exploration and is especially useful in
sparse reward settings. As curiosity is calculated using next state prediction
error, the type of state encoding used has a large impact on performance.
Random features and inverse-dynamics features are generally preferred over VAEs
based on previous results from Atari and other mostly 2D environments. However,
unlike VAEs, they may not encode sufficient information for optimal behaviour,
which becomes increasingly important as environments become more complex. In
this paper, we use the sparse reward 3D physics environment Animal-AI, to
demonstrate how a fixed $\beta$-VAE encoding can be used effectively with
curiosity. We combine this with curriculum learning to solve the previously
unsolved exploration intensive detour tasks while achieving 22\% gain in sample
efficiency on the training curriculum against the next best encoding. We also
corroborate the results on Atari Breakout, with our custom encoding
outperforming random features and inverse-dynamics features.
- Abstract(参考訳): 好奇心は、環境報酬を内在的な報酬で増やす一般的な方法であり、探索を促進し、スパース報酬設定において特に有用である。
キュリオシティは次の状態予測誤差を用いて計算されるため、使用する状態エンコーディングの種類は性能に大きな影響を与える。
ランダムな特徴と逆動的特徴は、Atariや他の主に2D環境の以前の結果に基づいて、VAEよりも一般的に好まれる。
しかし、VAEと異なり、最適な行動のための十分な情報をエンコードしていないため、環境が複雑化するにつれて、ますます重要になる。
本稿では,3D物理環境であるAnimal-AIを用いて,固定された$\beta$-VAEエンコーディングを好奇心で効果的に利用できることを示す。
これをカリキュラム学習と組み合わせて、未解決の探索集約的なデトラウトタスクを解き、次の最良エンコーディングに対してトレーニングカリキュラムのサンプル効率を22倍に向上させる。
また、atariのブレイクアウトの結果は、ランダムな機能や逆ダイナミクス機能よりも優れたエンコーディングで一致しています。
関連論文リスト
- SeA: Semantic Adversarial Augmentation for Last Layer Features from Unsupervised Representation Learning [13.779858242220724]
事前訓練された深層モデルの特定の層から抽出した深部特徴は、従来の手作りの特徴よりも優れた性能を示す。
本稿では,特徴空間におけるセマンティック・アジュメンテーション(SeA)を最適化するために提案する。
提案手法は,SeAを含まないディープ機能よりも平均で2%$よい。
論文 参考訳(メタデータ) (2024-08-23T19:55:13Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - $t^3$-Variational Autoencoder: Learning Heavy-tailed Data with Student's
t and Power Divergence [7.0479532872043755]
$t3$VAEは、学生のt-distributionsを前者、エンコーダ、デコーダに組み込んだ改良されたVAEフレームワークである。
t3$VAE は CelebA や不均衡な CIFAR-100 データセットにおいて,他のモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-12-02T13:14:28Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。
楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。
我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文 参考訳(メタデータ) (2021-10-21T15:25:15Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - State Entropy Maximization with Random Encoders for Efficient
Exploration [162.39202927681484]
近年,深層補強学習(rl)におけるサンプル効率向上のための手法が提案されている。
本稿では,状態エントロピーを本質的な報酬として利用する探索手法であるRandoms for Efficient Exploration (RE3)を提案する。
特に、ランダムエンコーダを用いて、状態エントロピーを安定かつ計算効率の良い方法で推定できることが判明した。
論文 参考訳(メタデータ) (2021-02-18T15:45:17Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。