論文の概要: Curiosity & Entropy Driven Unsupervised RL in Multiple Environments
- arxiv url: http://arxiv.org/abs/2401.04198v1
- Date: Mon, 8 Jan 2024 19:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:34:42.040998
- Title: Curiosity & Entropy Driven Unsupervised RL in Multiple Environments
- Title(参考訳): 複数環境における好奇心とエントロピー駆動型教師なしRL
- Authors: Shaurya Dewan, Anisha Jain, Zoe LaLena, Lifan Yu
- Abstract要約: オリジナル作品に5つの新しい修正を加えて実験する。
高次元環境では、好奇心による探索は、エージェントに多様な経験を求め、未知のものを探索するように促すことによって学習を促進する。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The authors of 'Unsupervised Reinforcement Learning in Multiple environments'
propose a method, alpha-MEPOL, to tackle unsupervised RL across multiple
environments. They pre-train a task-agnostic exploration policy using
interactions from an entire environment class and then fine-tune this policy
for various tasks using supervision. We expanded upon this work, with the goal
of improving performance. We primarily propose and experiment with five new
modifications to the original work: sampling trajectories using an
entropy-based probability distribution, dynamic alpha, higher KL Divergence
threshold, curiosity-driven exploration, and alpha-percentile sampling on
curiosity. Dynamic alpha and higher KL-Divergence threshold both provided a
significant improvement over the baseline from the earlier work. PDF-sampling
failed to provide any improvement due to it being approximately equivalent to
the baseline method when the sample space is small. In high-dimensional
environments, the addition of curiosity-driven exploration enhances learning by
encouraging the agent to seek diverse experiences and explore the unknown more.
However, its benefits are limited in low-dimensional and simpler environments
where exploration possibilities are constrained and there is little that is
truly unknown to the agent. Overall, some of our experiments did boost
performance over the baseline and there are a few directions that seem
promising for further research.
- Abstract(参考訳): 複数の環境における教師なし強化学習」の著者らは、教師なしRLを複数の環境にわたって取り組むために、α-MEPOL法を提案する。
彼らは、環境クラス全体からのインタラクションを使用してタスク非依存の探索ポリシーを事前訓練し、その後、監督を使用して様々なタスクのためにこのポリシーを微調整する。
私たちはこの作業を拡大し、パフォーマンスの向上を目標にしました。
我々は, エントロピーに基づく確率分布を用いたサンプリングトラジェクタ, 動的アルファ, 高kl発散閾値, 好奇心駆動探索, 好奇心に対するアルファパーセンタイルサンプリングの5つの改良を提案する。
ダイナミックアルファと高いKL-ディバージェンス閾値はどちらも、初期の研究からベースラインを大幅に改善した。
PDFサンプリングは、サンプル空間が小さい場合、ベースライン法とほぼ同等であるため、いかなる改善も提供しなかった。
高次元環境において、好奇心を駆使した探索が加わり、エージェントに多様な経験を求め、未知のものを探索させることで学習が促進される。
しかし、探索可能性に制約があり、エージェントに真に知られていないような、低次元でシンプルな環境では、その利点は限られている。
全体として、我々の実験の一部では、ベースラインよりもパフォーマンスが向上し、さらなる研究に期待できる方向がいくつかある。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - Exploration via Planning for Information about the Optimal Trajectory [67.33886176127578]
我々は,タスクと現在の知識を考慮に入れながら,探索を計画できる手法を開発した。
本手法は, 探索基準値よりも2倍少ないサンプルで, 強いポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2022-10-06T20:28:55Z) - Zipfian environments for Reinforcement Learning [19.309119596790563]
シュキュード体験からしっかり学習することは、シミュレーションや研究室を超えてDeep RL手法を適用する上で重要な課題であることを示す。
エージェントの経験がZipfian(離散電力法則)分布によって異なる3つの相補的なRL環境を開発する。
この結果から, シュキュード・エクスペリエンスからの学習が, シミュレーションや実験室を超えて深部RL法を適用する上で重要な課題であることが示唆された。
論文 参考訳(メタデータ) (2022-03-15T19:59:10Z) - MarsExplorer: Exploration of Unknown Terrains via Deep Reinforcement
Learning and Procedurally Generated Environments [0.7742297876120561]
MarsExplorerは、未知の領域の探索と探査に適したオープンなジャム互換環境である。
オリジナルのロボティクスの問題を、さまざまな既製のアルゴリズムが対応できる強化学習装置に翻訳する。
4種類の最先端RLアルゴリズム(A3C、PPO、レインボー、SAC)がMarsExplorer環境で訓練されている。
論文 参考訳(メタデータ) (2021-07-21T10:29:39Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。