論文の概要: Focus on Impact: Indoor Exploration with Intrinsic Motivation
- arxiv url: http://arxiv.org/abs/2109.08521v1
- Date: Tue, 14 Sep 2021 18:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-26 22:32:56.225583
- Title: Focus on Impact: Indoor Exploration with Intrinsic Motivation
- Title(参考訳): 衝撃に焦点をあてる:本質的な動機を持つ屋内探査
- Authors: Roberto Bigazzi, Federico Landi, Silvia Cascianelli, Lorenzo Baraldi,
Marcella Cornia and Rita Cucchiara
- Abstract要約: そこで本研究では,純粋に本質的な報酬信号を用いたモデルによる探索指導を提案する。
ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数で置き換える。
また,提案手法を取り入れたロボットが,ポイントゴールナビゲーションや実世界展開にシームレスに適応することを示す。
- 参考スコア(独自算出の注目度): 45.97756658635314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploration of indoor environments has recently experienced a significant
interest, also thanks to the introduction of deep neural agents built in a
hierarchical fashion and trained with Deep Reinforcement Learning (DRL) on
simulated environments. Current state-of-the-art methods employ a dense
extrinsic reward that requires the complete a priori knowledge of the layout of
the training environment to learn an effective exploration policy. However,
such information is expensive to gather in terms of time and resources. In this
work, we propose to train the model with a purely intrinsic reward signal to
guide exploration, which is based on the impact of the robot's actions on the
environment. So far, impact-based rewards have been employed for simple tasks
and in procedurally generated synthetic environments with countable states.
Since the number of states observable by the agent in realistic indoor
environments is non-countable, we include a neural-based density model and
replace the traditional count-based regularization with an estimated
pseudo-count of previously visited states. The proposed exploration approach
outperforms DRL-based competitors relying on intrinsic rewards and surpasses
the agents trained with a dense extrinsic reward computed with the environment
layouts. We also show that a robot equipped with the proposed approach
seamlessly adapts to point-goal navigation and real-world deployment.
- Abstract(参考訳): 室内環境の探索は、最近、階層的な方法で構築され、シミュレーション環境でDeep Reinforcement Learning (DRL)で訓練されたディープニューラルエージェントの導入により、大きな関心を集めている。
現在の最先端の手法は、効果的な探索政策を学ぶために、訓練環境のレイアウトに関する完全な事前知識を必要とする密集した外在的な報酬を用いる。
しかし、そのような情報は時間と資源の面で収集するには費用がかかる。
本研究では,ロボットの行動が環境に与える影響に基づく探索を導くために,純粋に内在的な報酬信号を用いてモデルを訓練することを提案する。
これまでのところ、インパクトに基づく報酬は単純なタスクや、可算状態を持つ手続き的に生成された合成環境に使われてきた。
現実的な屋内環境でエージェントが観測できる状態の数は非可算であるため、ニューラルベース密度モデルを含み、従来のカウントベースの正規化を、以前に訪れた状態の擬似数に置き換える。
提案手法は,内在的な報酬に依存するdrlベースの競争相手を上回り,環境レイアウトで計算された過剰な報酬で訓練されたエージェントを上回っている。
また,提案手法を組み込んだロボットが,ナビゲーションや実世界の展開にシームレスに適応することを示す。
関連論文リスト
- Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - Successor-Predecessor Intrinsic Exploration [18.440869985362998]
本研究は,内因性報酬を用いた探索に焦点を当て,エージェントが自己生成型内因性報酬を用いて外因性報酬を過渡的に増強する。
本研究では,先進情報と振り返り情報を組み合わせた新たな固有報酬に基づく探索アルゴリズムSPIEを提案する。
本研究は,SPIEが競合する手法よりも少ない報酬とボトルネック状態の環境において,より効率的かつ倫理的に妥当な探索行動をもたらすことを示す。
論文 参考訳(メタデータ) (2023-05-24T16:02:51Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - Active Exploration for Inverse Reinforcement Learning [58.295273181096036]
Inverse Reinforcement Learning (AceIRL) のための新しいIRLアルゴリズムを提案する。
AceIRLは、専門家の報酬関数を素早く学習し、良い政策を特定するために、未知の環境と専門家のポリシーを積極的に探求する。
我々はシミュレーションにおいてAceIRLを実証的に評価し、より単純な探索戦略よりも著しく優れていることを発見した。
論文 参考訳(メタデータ) (2022-07-18T14:45:55Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Variational Dynamic for Self-Supervised Exploration in Deep Reinforcement Learning [12.76337275628074]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - RIDE: Rewarding Impact-Driven Exploration for Procedurally-Generated
Environments [15.736899098702972]
本稿では,エージェントが学習状態の表現に大きな変化をもたらす行動を起こすことを奨励する,新しいタイプの固有報酬を提案する。
提案手法は,MiniGridにおける複数の手続き的タスクに対して評価する。
論文 参考訳(メタデータ) (2020-02-27T18:03:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。