論文の概要: Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards
- arxiv url: http://arxiv.org/abs/2012.13658v1
- Date: Sat, 26 Dec 2020 01:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 01:08:33.358196
- Title: Locally Persistent Exploration in Continuous Control Tasks with Sparse
Rewards
- Title(参考訳): スパース報酬を伴う連続制御タスクの局所的持続的探索
- Authors: Susan Amin (1 and 2), Maziar Gomrokchi (1 and 2), Hossein Aboutalebi
(3), Harsh Satija (1 and 2) and Doina Precup (1 and 2) ((1) McGill
University, (2) Mila- Quebec Artificial Intelligence Institute, (3)
University of Waterloo)
- Abstract要約: 2つの直観に基づく新しい探索法を提案する。
次の探索アクションの選択は、環境の(マルコフの)状態だけでなく、エージェントの軌道にも依存する必要があります。
本稿では,局所的自己回避歩行の理論的特性と,短期記憶の提供能力について論じる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in reinforcement learning is the design of exploration
strategies, especially for environments with sparse reward structures and
continuous state and action spaces. Intuitively, if the reinforcement signal is
very scarce, the agent should rely on some form of short-term memory in order
to cover its environment efficiently. We propose a new exploration method,
based on two intuitions: (1) the choice of the next exploratory action should
depend not only on the (Markovian) state of the environment, but also on the
agent's trajectory so far, and (2) the agent should utilize a measure of spread
in the state space to avoid getting stuck in a small region. Our method
leverages concepts often used in statistical physics to provide explanations
for the behavior of simplified (polymer) chains, in order to generate
persistent (locally self-avoiding) trajectories in state space. We discuss the
theoretical properties of locally self-avoiding walks, and their ability to
provide a kind of short-term memory, through a decaying temporal correlation
within the trajectory. We provide empirical evaluations of our approach in a
simulated 2D navigation task, as well as higher-dimensional MuJoCo continuous
control locomotion tasks with sparse rewards.
- Abstract(参考訳): 強化学習における大きな課題は、特に粗末な報酬構造と連続状態と行動空間を持つ環境において、探索戦略の設計である。
直感的には、補強信号が非常に少ない場合、エージェントは環境を効率的にカバーするために何らかの短期記憶に頼るべきである。
我々は,(1)次の探索行動の選択は環境の(マルコフ)状態だけでなく,エージェントの軌道にも依存すべきであり,(2)エージェントは,状態空間における拡散の指標を利用して,小さな領域で立ち往生することを避ける必要がある,という2つの直観に基づく新たな探索法を提案する。
本手法は,統計物理学でよく用いられる概念を応用し,状態空間における持続的(局所的に自己回避する)軌道を生成するために,単純化された(ポリマー)鎖の挙動を説明する。
本稿では,局所自己回避歩行の理論的特性と,軌道内における時間的相関による短期記憶の提供能力について論じる。
シミュレーションによる2次元ナビゲーションタスクや,高次元のムジョコ連続制御ロコモーションタスクにおいて,そのアプローチを経験的に評価した。
関連論文リスト
- AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - Long-HOT: A Modular Hierarchical Approach for Long-Horizon Object
Transport [83.06265788137443]
我々は、時間的拡張ナビゲーションのための新しいオブジェクトトランスポートタスクと新しいモジュラーフレームワークを提案することで、長距離探査と航法を具現化する上で重要な課題に対処する。
私たちの最初の貢献は、深層探査と長期計画に焦点を当てた新しいLong-HOT環境の設計である。
重み付けされたフロンティアの助けを借りて探索を行うために,シーンのトポロジカルグラフを構築するモジュラー階層輸送ポリシー(HTP)を提案する。
論文 参考訳(メタデータ) (2022-10-28T05:30:49Z) - Exploration Policies for On-the-Fly Controller Synthesis: A
Reinforcement Learning Approach [0.0]
強化学習(RL)に基づく非有界学習のための新しい手法を提案する。
我々のエージェントは、非常に観察可能な部分的なRLタスクでスクラッチから学習し、トレーニング中に見つからないケースで、全体のパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2022-10-07T20:28:25Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - Exploring Dynamic Context for Multi-path Trajectory Prediction [33.66335553588001]
動的コンテキストネットワーク(DCENet)という新しいフレームワークを提案する。
本フレームワークでは,エージェント間の空間的コンテキストを自己注意型アーキテクチャを用いて探索する。
学習した空間的時間的文脈に基づいて、各エージェントに対する将来の軌跡のセットを条件付きで予測する。
論文 参考訳(メタデータ) (2020-10-30T13:39:20Z) - Autonomous UAV Exploration of Dynamic Environments via Incremental
Sampling and Probabilistic Roadmap [0.3867363075280543]
インクリメンタルサンプリングと確率的ロードマップ(PRM)を用いた未知環境探索のための新しい動的探索プランナ(DEP)を提案する。
本手法は, 動的環境を安全に探索し, 探索時間, 経路長, 計算時間でベンチマークプランナーより優れている。
論文 参考訳(メタデータ) (2020-10-14T22:52:37Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z) - Learning to Move with Affordance Maps [57.198806691838364]
物理的な空間を自律的に探索し、ナビゲートする能力は、事実上あらゆる移動型自律エージェントの基本的な要件である。
従来のSLAMベースの探索とナビゲーションのアプローチは、主にシーン幾何学の活用に重点を置いている。
学習可能な余剰マップは探索と航法の両方において従来のアプローチの強化に利用でき、性能が大幅に向上することを示します。
論文 参考訳(メタデータ) (2020-01-08T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。