論文の概要: Long-Term Exploration in Persistent MDPs
- arxiv url: http://arxiv.org/abs/2109.10173v1
- Date: Tue, 21 Sep 2021 13:47:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-22 14:33:31.005925
- Title: Long-Term Exploration in Persistent MDPs
- Title(参考訳): 持続型MDPの長期探査
- Authors: Leonid Ugadiarov, Alexey Skrynnik, Aleksandr I. Panov
- Abstract要約: RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
- 参考スコア(独自算出の注目度): 68.8204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration is an essential part of reinforcement learning, which restricts
the quality of learned policy. Hard-exploration environments are defined by
huge state space and sparse rewards. In such conditions, an exhaustive
exploration of the environment is often impossible, and the successful training
of an agent requires a lot of interaction steps. In this paper, we propose an
exploration method called Rollback-Explore (RbExplore), which utilizes the
concept of the persistent Markov decision process, in which agents during
training can roll back to visited states. We test our algorithm in the
hard-exploration Prince of Persia game, without rewards and domain knowledge.
At all used levels of the game, our agent outperforms or shows comparable
results with state-of-the-art curiosity methods with knowledge-based intrinsic
motivation: ICM and RND. An implementation of RbExplore can be found at
https://github.com/cds-mipt/RbExplore.
- Abstract(参考訳): 探索は、学習方針の質を制限する強化学習の不可欠な部分である。
ハードエクスプロレーション環境は、巨大な状態空間とスパース報酬によって定義される。
このような条件下では、環境の徹底的な探索は不可能であり、エージェントのトレーニングの成功には多くの相互作用ステップが必要である。
本稿では,訓練中のエージェントが訪問状態へロールバックできる永続的マルコフ決定プロセスの概念を活かしたロールバック展開(rbexplore)と呼ばれる探索手法を提案する。
私たちはアルゴリズムを、報酬やドメイン知識なしで、ペルシャの難解なプリンスでテストします。
ゲームのあらゆる使用レベルにおいて、エージェントは知識に基づく本質的なモチベーションを持つ最先端の好奇心の手法(ICMとRND)で、同等の結果を示す。
RbExploreの実装はhttps://github.com/cds-mipt/RbExploreにある。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - First Go, then Post-Explore: the Benefits of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
Go-Exploreの主な洞察は、調査を成功させるためには、エージェントが最初に興味深い状態に戻る必要があります。
目標達成後の探査を「後探査」と呼ぶ。
論文 参考訳(メタデータ) (2022-12-06T18:56:47Z) - When to Go, and When to Explore: The Benefit of Post-Exploration in
Intrinsic Motivation [7.021281655855703]
Go-Exploreは、低報酬の強化学習(RL)タスクにおいて画期的なパフォーマンスを達成した。
目標達成後の探査を「後探査」と呼ぶ。
我々は,いつまで,いつまで,いつまで,いつまで,いつまでかかるかを適応的に決定する新しい手法を導入する。
論文 参考訳(メタデータ) (2022-03-29T16:50:12Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。