論文の概要: Learning and Transferring Value Function for Robot Exploration in
Subterranean Environments
- arxiv url: http://arxiv.org/abs/2204.03140v1
- Date: Thu, 7 Apr 2022 00:46:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 14:06:15.812060
- Title: Learning and Transferring Value Function for Robot Exploration in
Subterranean Environments
- Title(参考訳): 地下環境におけるロボット探査のための学習と伝達値関数
- Authors: Yafei Hu, Chen Wang, John Keller and Sebastian Scherer
- Abstract要約: 従来のロボット探索法では、ロボットは通常、探索している環境に関する事前の偏見を持っていない。
本研究では、状態値関数によって測定された状態がいかに「良い」かを学習し、ロボットが探索決定を行うためのヒントを提供する。
- 参考スコア(独自算出の注目度): 7.5732648833726985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In traditional robot exploration methods, the robot usually does not have
prior biases about the environment it is exploring. Thus the robot assigns
equal importance to the goals which leads to insufficient exploration
efficiency. Alternative, often a hand-tuned policy is used to tweak the value
of goals. In this paper, we present a method to learn how "good" some states
are, measured by the state value function, to provide a hint for the robot to
make exploration decisions. We propose to learn state value functions from
previous offline collected datasets and then transfer and improve the value
function during testing in a new environment. Moreover, the environments
usually have very few and even no extrinsic reward or feedback for the robot.
Therefore in this work, we also tackle the problem of sparse extrinsic rewards
from the environments. We design several intrinsic rewards to encourage the
robot to obtain more information during exploration. These reward functions
then become the building blocks of the state value functions. We test our
method on challenging subterranean and urban environments. To the best of our
knowledge, this work for the first time demonstrates value function prediction
with previous collected datasets to help exploration in challenging
subterranean environments.
- Abstract(参考訳): 従来のロボット探索法では、ロボットは通常、探索している環境に対する事前の偏見を持たない。
このように、ロボットは探索効率が不十分な目標に等しく重要度を割り当てる。
別の方法として、しばしば目標の価値を微調整するために手調整されたポリシーが使用される。
本稿では,状態値関数を用いて測定した状態がいかに「良い」のかを学習し,ロボットが探索判断を行うためのヒントを与える手法を提案する。
従来のオフライン収集データセットから状態値関数を学習し,新しい環境でのテスト中に値関数を転送し,改善することを提案する。
さらに、通常、環境はごく少数であり、ロボットに対する不本意な報酬やフィードバックすらない。
そこで本研究では,環境からの報酬が少なすぎる問題にも対処する。
探索中により多くの情報を得るようロボットに促すため、いくつかの内在的な報酬をデザインする。
これらの報酬関数は、ステート値関数のビルディングブロックとなる。
我々は,地下環境と都市環境に挑戦する手法をテストした。
我々の知る限りでは、この研究は以前に収集したデータセットを用いて初めて価値関数の予測を実証し、地下環境への挑戦に役立つ。
関連論文リスト
- Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - Domain and Modality Gaps for LiDAR-based Person Detection on Mobile
Robots [91.01747068273666]
本稿では,移動ロボットのシナリオに着目した既存のLiDAR人物検出装置について検討する。
実験は3Dと2D LiDARのセンサー間のモダリティのギャップだけでなく、運転と移動ロボットのシナリオ間の領域ギャップを回避している。
その結果、LiDARに基づく人物検出の実践的な洞察を与え、関連する移動ロボットの設計と応用に関する情報決定を容易にする。
論文 参考訳(メタデータ) (2021-06-21T16:35:49Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Low Dimensional State Representation Learning with Reward-shaped Priors [7.211095654886105]
本研究では,観測結果から低次元状態空間への写像の学習を目的とした手法を提案する。
このマッピングは、環境とタスクの事前知識を組み込むために形作られた損失関数を用いて教師なしの学習で学習される。
本手法は,シミュレーション環境における移動ロボットナビゲーションタスクおよび実ロボット上でのテストを行う。
論文 参考訳(メタデータ) (2020-07-29T13:00:39Z) - Autonomous Exploration Under Uncertainty via Deep Reinforcement Learning
on Graphs [5.043563227694137]
本研究では,移動ロボットが事前の未知環境におけるランドマークの正確なマッピングをリアルタイムで効率的に行うという自律的な探索問題を考察する。
本稿では,グラフニューラルネットワーク(GNN)と深部強化学習(DRL)を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-24T16:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。