論文の概要: Adventurer: Exploration with BiGAN for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2503.18612v1
- Date: Mon, 24 Mar 2025 12:13:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:06.477036
- Title: Adventurer: Exploration with BiGAN for Deep Reinforcement Learning
- Title(参考訳): Adventurer: 深層強化学習のためのBiGANによる探索
- Authors: Yongshuai Liu, Xin Liu,
- Abstract要約: 複雑な観測のために, 状態の新規性を推定する上で, BiGANは良好に機能することを示す。
この結果から,Adventureは,様々なベンチマークタスクにおいて,競争力のある結果をもたらすことがわかった。
- 参考スコア(独自算出の注目度): 4.902161835372679
- License:
- Abstract: Recent developments in deep reinforcement learning have been very successful in learning complex, previously intractable problems. Sample efficiency and local optimality, however, remain significant challenges. To address these challenges, novelty-driven exploration strategies have emerged and shown promising potential. Unfortunately, no single algorithm outperforms all others in all tasks and most of them struggle with tasks with high-dimensional and complex observations. In this work, we propose Adventurer, a novelty-driven exploration algorithm that is based on Bidirectional Generative Adversarial Networks (BiGAN), where BiGAN is trained to estimate state novelty. Intuitively, a generator that has been trained on the distribution of visited states should only be able to generate a state coming from the distribution of visited states. As a result, novel states using the generator to reconstruct input states from certain latent representations would lead to larger reconstruction errors. We show that BiGAN performs well in estimating state novelty for complex observations. This novelty estimation method can be combined with intrinsic-reward-based exploration. Our empirical results show that Adventurer produces competitive results on a range of popular benchmark tasks, including continuous robotic manipulation tasks (e.g. Mujoco robotics) and high-dimensional image-based tasks (e.g. Atari games).
- Abstract(参考訳): 深層強化学習の最近の発展は、複雑で、以前は難解な問題を学ぶことに成功している。
しかし、サンプル効率と局所最適性は依然として重要な課題である。
これらの課題に対処するために、新規に主導された探索戦略が出現し、有望な可能性を示している。
残念なことに、1つのアルゴリズムが全てのタスクで他のすべてのタスクより優れており、そのほとんどは高次元で複雑な観察を伴うタスクと戦っている。
本研究では,双方向生成適応ネットワーク(bidirectional Generative Adversarial Networks, BiGAN)に基づく新規性駆動探索アルゴリズムであるAdventurerを提案する。
直感的には、訪問状態の分布に基づいて訓練されたジェネレータは、訪問状態の分布から来る状態しか生成できない。
結果として、特定の潜在表現から入力状態を再構成するためにジェネレータを使用する新しい状態は、より大きな再構成エラーを引き起こす。
複雑な観測のために, 状態の新規性を推定する上で, BiGANは良好に機能することを示す。
この新規性推定法は本質的逆探索と組み合わせることができる。
実験の結果,連続的なロボット操作タスク(例えばMujocoロボティクス)や高次元画像ベースタスク(例えばAtariゲーム)など,さまざまなベンチマークタスクにおいて,アドベンチャーが競争力を発揮することが示された。
関連論文リスト
- Intelligent Go-Explore: Standing on the Shoulders of Giant Foundation Models [5.404186221463082]
Go-Exploreは、ハード探索問題を解決するために設計されたアルゴリズムの強力なファミリーである。
本稿では,従来の Go-Explore の範囲を大きく広げる Intelligent Go-Explore (IGE) を提案する。
IGEには人間のような能力があり、新しい状態がいかに面白く、あるいは有望であるかを直感的に識別する能力がある。
論文 参考訳(メタデータ) (2024-05-24T01:45:27Z) - Sample Efficient Deep Reinforcement Learning via Local Planning [21.420851589712626]
本研究は,シミュレータを用いた試料効率深部強化学習(RL)に焦点を当てる。
本稿では,この特性を利用した不確実性優先ローカルプランニング(UFLP)というアルゴリズムフレームワークを提案する。
本研究では,この簡単な手法により,難解な探索作業において,いくつかのベースラインRLアルゴリズムのサンプルコストを劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-01-29T23:17:26Z) - Generative Adversarial Exploration for Reinforcement Learning [48.379457575356454]
本稿では, GAEX (Generative Adversarial Explor) と呼ばれる新しい手法を提案し, 強化学習における探索を奨励する。
実験では,ゲームVenture,Montzuma's Revenge,Super Mario BrosにGAEXを適用した。
我々の知る限り、これはRL探査問題にGANを用いた最初の研究である。
論文 参考訳(メタデータ) (2022-01-27T17:34:47Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Learning to Shift Attention for Motion Generation [55.61994201686024]
ロボット学習を用いた動作生成の課題の1つは、人間のデモが1つのタスククエリに対して複数のモードを持つ分布に従うことである。
以前のアプローチでは、すべてのモードをキャプチャできなかったり、デモの平均モードを取得できないため、無効なトラジェクトリを生成する傾向があった。
この問題を克服する外挿能力を有するモーション生成モデルを提案する。
論文 参考訳(メタデータ) (2021-02-24T09:07:52Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - First return, then explore [18.876005532689234]
Go-Exploreは、有望な状態を明示的に記憶し、意図的に探索する前に最初にそのような状態に戻るアルゴリズムのファミリーである。
Go-Exploreは、これまで未解決だったAtariゲームをすべて解決し、ハード探索ゲームにおける最先端の技術を超越している。
目標条件付きポリシーを追加することで、Go-Exploreの探索効率をさらに向上し、トレーニング全体を通して処理できることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。