論文の概要: Cyclophobic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.15911v1
- Date: Wed, 30 Aug 2023 09:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 13:53:50.810326
- Title: Cyclophobic Reinforcement Learning
- Title(参考訳): サイクロフォニック強化学習
- Authors: Stefan Sylvius Wagner, Peter Arndt, Jan Robine, Stefan Harmeling
- Abstract要約: 粗末な報酬のある環境では、探索のための優れた誘導バイアスを見つけることがエージェントの成功に不可欠である。
本稿では,サイクロフォビックな新たな固有報酬を提案する。すなわち,新規性に報いるのではなく,サイクルの回避によって冗長性を罰する。
サイクロフォビックな固有報酬を階層的な表現の列で増大させることで、MiniGridおよびMiniHack環境において優れた結果を得ることができる。
- 参考スコア(独自算出の注目度): 2.2940141855172036
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In environments with sparse rewards, finding a good inductive bias for
exploration is crucial to the agent's success. However, there are two competing
goals: novelty search and systematic exploration. While existing approaches
such as curiosity-driven exploration find novelty, they sometimes do not
systematically explore the whole state space, akin to depth-first-search vs
breadth-first-search. In this paper, we propose a new intrinsic reward that is
cyclophobic, i.e., it does not reward novelty, but punishes redundancy by
avoiding cycles. Augmenting the cyclophobic intrinsic reward with a sequence of
hierarchical representations based on the agent's cropped observations we are
able to achieve excellent results in the MiniGrid and MiniHack environments.
Both are particularly hard, as they require complex interactions with different
objects in order to be solved. Detailed comparisons with previous approaches
and thorough ablation studies show that our newly proposed cyclophobic
reinforcement learning is more sample efficient than other state of the art
methods in a variety of tasks.
- Abstract(参考訳): 粗末な報酬のある環境では、探索のための優れた誘導バイアスを見つけることがエージェントの成功に不可欠である。
しかし、2つの競合する目標がある: 新奇な探索と体系的な探索である。
キュリオシティ駆動探索のような既存のアプローチは目新しさを見出すが、時として、深さ優先探索と幅優先探索のように、体系的に状態空間全体を探索することはない。
本稿では,サイクロフォビックな新たな固有報酬,すなわちノベルティを報いるのではなく,サイクルを避けることで冗長性を罰することを提案する。
エージェントの切り抜かれた観察に基づいて階層表現のシーケンスでサイクロフォビア内在的な報酬を増強することで、minigridおよびminihack環境で優れた結果を得ることができる。
どちらも、解決するために異なるオブジェクトとの複雑な相互作用を必要とするため、特に難しい。
これまでのアプローチと徹底的なアブレーション研究との詳細な比較から,提案するサイクロフォビア強化学習は,様々な課題において,他の技術手法よりもサンプル効率が高いことが示された。
関連論文リスト
- Guarantees for Epsilon-Greedy Reinforcement Learning with Function
Approximation [69.1524391595912]
エプシロングレーディ、ソフトマックス、ガウシアンノイズといった神秘的な探索政策は、いくつかの強化学習タスクにおいて効率的に探索することができない。
本稿では,このような政策を理論的に分析し,筋電図探索による強化学習のための最初の後悔とサンプル複雑度境界を提供する。
論文 参考訳(メタデータ) (2022-06-19T14:44:40Z) - Exploration in Deep Reinforcement Learning: A Survey [4.066140143829243]
スパース報酬問題の解決には探索技術が重要である。
スパース報酬問題では報酬は稀であり、エージェントがランダムに振る舞うことで報酬を見つけられないことを意味する。
本総説では,既存探査手法の概要について概説する。
論文 参考訳(メタデータ) (2022-05-02T12:03:44Z) - Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration [20.38772636693469]
我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、この手法の潜在能力を最大限に活用できないと論じている。
好奇心に基づく学習において出現する行動の維持に焦点を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-17T15:28:25Z) - Rank the Episodes: A Simple Approach for Exploration in
Procedurally-Generated Environments [66.80667987347151]
固有の報酬に基づく方法は、しばしば手続き的に生成された環境で不足する。
RAPIDは、手続き的に生成された環境のためのシンプルで効果的なエピソードレベルの探索方法です。
そこで本手法は,MiniGrid環境,MiniWorldの3D Mazeナビゲーションタスク,MuJoCoタスクのスパースについて実証した。
論文 参考訳(メタデータ) (2021-01-20T14:22:01Z) - BeBold: Exploration Beyond the Boundary of Explored Regions [66.88415950549556]
本稿では,本質的報酬(IR)の簡便かつ効果的な基準として,逆訪問回数の規制的差異を提案する。
この基準は、エージェントが探索された地域の境界を越えて探索し、短視力や分離などのカウントベースの方法の一般的な問題を緩和するのに役立ちます。
その結果得られたBeBoldは、MiniGridの12の最も難しい手続き的タスクを、カリキュラムの学習なしにわずか120万の環境ステップで解決する。
論文 参考訳(メタデータ) (2020-12-15T21:26:54Z) - Exploration in Approximate Hyper-State Space for Meta Reinforcement
Learning [60.1292055717823]
本稿では,メタトレーニングに新たな報酬ボーナスを応用して,近似超状態空間を探索するHyperXを提案する。
実験の結果,HyperXメタ学習はタスク探索に優れ,既存の手法よりも新しいタスクに適応できることがわかった。
論文 参考訳(メタデータ) (2020-10-02T15:43:31Z) - Fast active learning for pure exploration in reinforcement learning [48.98199700043158]
1/n$でスケールしたボーナスはより高速な学習率をもたらし、地平線への依存に関して既知の上限を改善します。
また, 停止時間の解析を改良することにより, 最良政体識別設定におけるサンプルの複雑さを$H$で改善できることも示している。
論文 参考訳(メタデータ) (2020-07-27T11:28:32Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Curious Hierarchical Actor-Critic Reinforcement Learning [13.225264876433528]
階層的抽象化と好奇心による探索は、現在の強化学習アプローチにおける2つの共通のパラダイムである。
階層的強化学習と好奇心を組み合わせた手法を開発した。
好奇心が学習性能と成功率を2倍以上にできるいくつかの連続空間環境を実証する。
論文 参考訳(メタデータ) (2020-05-07T12:44:26Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。