論文の概要: Curiosity creates Diversity in Policy Search
- arxiv url: http://arxiv.org/abs/2212.03530v1
- Date: Wed, 7 Dec 2022 09:22:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:54:17.468175
- Title: Curiosity creates Diversity in Policy Search
- Title(参考訳): 好奇心はポリシー検索の多様性を生み出す
- Authors: Paul-Antoine Le Tolguenec, Emmanuel Rachelson, Yann Besse, Dennis G.
Wilson
- Abstract要約: 報酬が見つかるまで、私たちは本質的なモチベーションを使って新しい移行を探求します。
Curiosity-ESは、Curiosityをフィットネス指標として使用するように適合した進化戦略である。
Curiosityは、明確な多様性基準を必要とせずに、全エピソードにより高い多様性をもたらすことができる。
- 参考スコア(独自算出の注目度): 3.0969191504482243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When searching for policies, reward-sparse environments often lack sufficient
information about which behaviors to improve upon or avoid. In such
environments, the policy search process is bound to blindly search for
reward-yielding transitions and no early reward can bias this search in one
direction or another. A way to overcome this is to use intrinsic motivation in
order to explore new transitions until a reward is found. In this work, we use
a recently proposed definition of intrinsic motivation, Curiosity, in an
evolutionary policy search method. We propose Curiosity-ES, an evolutionary
strategy adapted to use Curiosity as a fitness metric. We compare Curiosity
with Novelty, a commonly used diversity metric, and find that Curiosity can
generate higher diversity over full episodes without the need for an explicit
diversity criterion and lead to multiple policies which find reward.
- Abstract(参考訳): ポリシーを探すとき、報酬の少ない環境は、どの行動を改善するか、避けるかについての十分な情報がないことが多い。
このような環境では、ポリシー検索プロセスは、報酬を得られる遷移を盲目的に検索することを余儀なくされ、早期報酬は、この探索をいずれかの方向にバイアスすることができない。
これを解決する方法のひとつは、報酬が見つかるまで、本質的なモチベーションを使って新しい移行を探索することだ。
本研究では,最近提案されている進化的政策探索手法における本質的動機づけ,好奇心の定義について述べる。
我々は,キュリオシティを適合度指標として用いる進化戦略であるcuriosity-esを提案する。
私たちは、一般的に使用される多様性の指標である、好奇心とノベルティを比較し、明示的な多様性基準を必要とせずに、キュリオシティが完全なエピソードよりも高い多様性を生み出すことができることを発見し、報酬を得る複数のポリシーに導く。
関連論文リスト
- Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - Cyclophobic Reinforcement Learning [2.2940141855172036]
粗末な報酬のある環境では、探索のための優れた誘導バイアスを見つけることがエージェントの成功に不可欠である。
本稿では,サイクロフォビックな新たな固有報酬を提案する。すなわち,新規性に報いるのではなく,サイクルの回避によって冗長性を罰する。
サイクロフォビックな固有報酬を階層的な表現の列で増大させることで、MiniGridおよびMiniHack環境において優れた結果を得ることができる。
論文 参考訳(メタデータ) (2023-08-30T09:38:44Z) - Curiosity-Driven Reinforcement Learning based Low-Level Flight Control [95.42181254494287]
本研究では,オドメトリデータから適切な運動速度を生成することにより,自律学習のための好奇心の駆動に基づくアルゴリズムを提案する。
探索パターンの進化における好奇心の効果を可視化したアルゴリズムとアルゴリズムを用いて、オン・ポリティ、オフ・ポリティ、オン・ポリティ、オン・ポリティと好奇心を用いたテストを実行した。
論文 参考訳(メタデータ) (2023-07-28T11:46:28Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Is Curiosity All You Need? On the Utility of Emergent Behaviours from
Curious Exploration [20.38772636693469]
我々は、好奇心を高速な環境探索や、特定のタスクに対するボーナス報酬として使うだけでは、この手法の潜在能力を最大限に活用できないと論じている。
好奇心に基づく学習において出現する行動の維持に焦点を移すことを提案する。
論文 参考訳(メタデータ) (2021-09-17T15:28:25Z) - Ask & Explore: Grounded Question Answering for Curiosity-Driven
Exploration [17.28353205476766]
エージェントに対する外在的な報酬が極めて少ない現実のシナリオでは、好奇心は有用な概念として現れている。
本稿では,エージェントに環境に関する質問をするように促し,接地質問応答に基づく好奇心を定式化する。
自然言語に関する質問は,対象の物理的性質や他の対象との空間的関係など,その環境に関する特定の知識を明らかにすることを促す。
論文 参考訳(メタデータ) (2021-04-24T07:56:31Z) - See, Hear, Explore: Curiosity via Audio-Visual Association [46.86865495827888]
好奇心駆動探索の一般的な定式化は、学習モデルによって予測される現実と未来の違いを使用する。
本稿では,異なる感覚の新たな関連性に報いる新たな好奇心について紹介する。
我々のアプローチは、より効率的な探索のためのより強力な信号を提供するために、複数のモダリティを利用する。
論文 参考訳(メタデータ) (2020-07-07T17:56:35Z) - Show me the Way: Intrinsic Motivation from Demonstrations [44.87651595571687]
複雑な探索行動は, 異なる動機を反映して, RLエージェントによって学習し, 効率的に利用でき, 徹底的な探索が禁じられる課題を解決することができることを示す。
本稿では,これらのモチベーションを人工エージェントに伝達する実証実験から探索ボーナスを学習することを提案する。
論文 参考訳(メタデータ) (2020-06-23T11:52:53Z) - Semantic Curiosity for Active Visual Learning [45.75355448193764]
物体検出のための対話型学習を具体化する課題について検討する。
私たちのゴールは、エージェントがラベルを取得するデータを選択することで、オブジェクト検出器を学習することです。
論文 参考訳(メタデータ) (2020-06-16T17:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。