論文の概要: Go Beyond Imagination: Maximizing Episodic Reachability with World
Models
- arxiv url: http://arxiv.org/abs/2308.13661v1
- Date: Fri, 25 Aug 2023 20:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-29 19:56:41.493757
- Title: Go Beyond Imagination: Maximizing Episodic Reachability with World
Models
- Title(参考訳): 想像を超越する:世界モデルによるエピソディック到達可能性の最大化
- Authors: Yao Fu, Run Peng, Honglak Lee
- Abstract要約: 本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。
学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。
本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 68.91647544080097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient exploration is a challenging topic in reinforcement learning,
especially for sparse reward tasks. To deal with the reward sparsity, people
commonly apply intrinsic rewards to motivate agents to explore the state space
efficiently. In this paper, we introduce a new intrinsic reward design called
GoBI - Go Beyond Imagination, which combines the traditional lifelong novelty
motivation with an episodic intrinsic reward that is designed to maximize the
stepwise reachability expansion. More specifically, we apply learned world
models to generate predicted future states with random actions. States with
more unique predictions that are not in episodic memory are assigned high
intrinsic rewards. Our method greatly outperforms previous state-of-the-art
methods on 12 of the most challenging Minigrid navigation tasks and improves
the sample efficiency on locomotion tasks from DeepMind Control Suite.
- Abstract(参考訳): 効率的な探索は強化学習において、特にスパース報酬タスクにおいて難しい課題である。
報酬の幅に対処するため、人々は通常、国家空間を効率的に探索するためにエージェントを動機付けるために本質的な報酬を適用します。
本稿では,従来の生涯のノベルティモチベーションと,段階的な到達可能性拡大を最大化するためのエピソディクス的なインセンティブ報酬を組み合わせた,gobi-go beyond imaginationという新たなインシデント報酬デザインを提案する。
より具体的には、学習世界モデルを適用し、ランダムなアクションで予測された将来の状態を生成する。
エピソディックメモリにない、よりユニークな予測を持つ状態は、高い内在的な報酬が割り当てられる。
提案手法は,最も困難なミニグリッドナビゲーションタスク12項目において,従来の最先端手法を大きく上回り,deepmindコントロールスイートによるロコモーションタスクのサンプル効率を向上させる。
関連論文リスト
- DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - BC-IRL: Learning Generalizable Reward Functions from Demonstrations [51.535870379280155]
逆強化学習法は、最大エントロピーIRLアプローチと比較して、より一般化された報酬関数を学習する。
我々は、BC-IRLが、説明的な単純なタスクと2つの連続的なロボット制御タスクでより良く一般化する報酬を学習し、一般化設定に挑戦する際のベースラインの成功率の2倍以上を達成することを示す。
論文 参考訳(メタデータ) (2023-03-28T17:57:20Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Adversarial Motion Priors Make Good Substitutes for Complex Reward
Functions [124.11520774395748]
強化学習実践者は、身体的にもっともらしい行動を促進する複雑な報酬関数を利用することが多い。
そこで我々は,モーションキャプチャのデモンストレーションデータセットから学習した「スタイル報酬」で複雑な報酬関数を置換する手法を提案する。
学習スタイルの報酬と任意のタスク報酬を組み合わせることで、自然主義戦略を使ってタスクを実行するポリシーを訓練することができる。
論文 参考訳(メタデータ) (2022-03-28T21:17:36Z) - Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。
環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。
我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文 参考訳(メタデータ) (2021-04-15T14:40:16Z) - Mutual Information State Intrinsic Control [91.38627985733068]
本質的に動機づけられたRLは、本質的な報酬関数を定義することによって、この制約を取り除こうとする。
心理学における自己意識の概念に動機付けられ、エージェントが自分自身を構成するものを知っているという自然な仮定を立てる。
我々は,この報酬をエージェント状態と周辺状態の相互情報として数学的に定式化する。
論文 参考訳(メタデータ) (2021-03-15T03:03:36Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z) - Long-Term Visitation Value for Deep Exploration in Sparse Reward
Reinforcement Learning [34.38011902445557]
報酬の少ない強化学習は、依然としてオープンな課題である。
本稿では,長期訪問数を用いて,今後の探査行動を計画する新しいアプローチを提案する。
報酬と力学のモデルを使用する既存の方法とは対照的に、我々のアプローチは非政治的でモデルなしです。
論文 参考訳(メタデータ) (2020-01-01T01:01:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。