論文の概要: Off-Policy Evaluation with Online Adaptation for Robot Exploration in
Challenging Environments
- arxiv url: http://arxiv.org/abs/2204.03140v3
- Date: Wed, 24 May 2023 20:18:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-27 00:25:34.477933
- Title: Off-Policy Evaluation with Online Adaptation for Robot Exploration in
Challenging Environments
- Title(参考訳): 課題環境におけるロボット探索のためのオンライン適応によるオフポリシー評価
- Authors: Yafei Hu, Junyi Geng, Chen Wang, John Keller, and Sebastian Scherer
- Abstract要約: 本稿では、状態値関数によって測定された「良い」状態がどのようにあるかを学習し、ロボット探査のガイダンスを提供する。
実世界のデータに関するオフラインのモンテカルロトレーニングと、トレーニングされた値推定器を最適化するために時間差分(TD)オンライン適応を実行する。
以上の結果から,ロボットが将来の状態を予測し,ロボット探索の指針となることが示唆された。
- 参考スコア(独自算出の注目度): 6.4617907823964345
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autonomous exploration has many important applications. However, classic
information gain-based or frontier-based exploration only relies on the robot
current state to determine the immediate exploration goal, which lacks the
capability of predicting the value of future states and thus leads to
inefficient exploration decisions. This paper presents a method to learn how
"good" states are, measured by the state value function, to provide a guidance
for robot exploration in real-world challenging environments. We formulate our
work as an off-policy evaluation (OPE) problem for robot exploration (OPERE).
It consists of offline Monte-Carlo training on real-world data and performs
Temporal Difference (TD) online adaptation to optimize the trained value
estimator. We also design an intrinsic reward function based on sensor
information coverage to enable the robot to gain more information with sparse
extrinsic rewards. Results show that our method enables the robot to predict
the value of future states so as to better guide robot exploration. The
proposed algorithm achieves better prediction and exploration performance
compared with the state-of-the-arts. To the best of our knowledge, this work
for the first time demonstrates value function prediction on real-world dataset
for robot exploration in challenging subterranean and urban environments. More
details and demo videos can be found at https://jeffreyyh.github.io/opere/.
- Abstract(参考訳): 自律探査には多くの重要な応用がある。
しかし、古典的な情報ゲインベースまたはフロンティアベースの探索は、将来の状態の価値を予測する能力に欠ける即時探索目標を決定するために、ロボットの現在の状態にのみ依存する。
本稿では、状態値関数によって測定された「良い」状態がどのようにあるのかを学習し、現実の挑戦環境におけるロボット探査のガイダンスを提供する。
我々は,ロボット探査(OPERE)におけるオフ政治評価(OPE)問題として,我々の研究を定式化する。
実世界のデータに関するオフラインのモンテカルロトレーニングと、トレーニングされた値推定器を最適化するために時間差分(TD)オンライン適応を実行する。
また,センサ情報カバレッジに基づく内在的な報酬関数も設計し,ロボットがより少ない外部報酬でより多くの情報を得ることができるようにした。
以上の結果から,ロボットが将来の状態を予測し,ロボット探索の指針となることが示唆された。
提案アルゴリズムは,最先端技術と比較して予測と探索性能が向上する。
我々の知る限り、この研究は、地下と都市環境に挑戦するロボット探査のための実世界のデータセット上で、初めて価値関数を予測する。
詳細とデモビデオはhttps://jeffreyyh.github.io/opere/にある。
関連論文リスト
- Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - Self-Improving Robots: End-to-End Autonomous Visuomotor Reinforcement
Learning [54.636562516974884]
模倣と強化学習において、人間の監督コストは、ロボットが訓練できるデータの量を制限する。
本研究では,自己改善型ロボットシステムのための新しい設計手法であるMEDAL++を提案する。
ロボットは、タスクの実施と解除の両方を学ぶことで、自律的にタスクを練習し、同時にデモンストレーションから報酬関数を推論する。
論文 参考訳(メタデータ) (2023-03-02T18:51:38Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Incremental 3D Scene Completion for Safe and Efficient Exploration
Mapping and Planning [60.599223456298915]
本研究では,情報,安全,解釈可能な地図作成と計画に3次元シーン補完を活用することによって,深層学習を探索に統合する新しい手法を提案する。
本手法は,地図の精度を最小限に抑えることで,ベースラインに比べて環境のカバレッジを73%高速化できることを示す。
最終地図にシーン完了が含まれていなくても、ロボットがより情報的な経路を選択するように誘導し、ロボットのセンサーでシーンの測定を35%高速化できることが示される。
論文 参考訳(メタデータ) (2022-08-17T14:19:33Z) - Domain and Modality Gaps for LiDAR-based Person Detection on Mobile
Robots [91.01747068273666]
本稿では,移動ロボットのシナリオに着目した既存のLiDAR人物検出装置について検討する。
実験は3Dと2D LiDARのセンサー間のモダリティのギャップだけでなく、運転と移動ロボットのシナリオ間の領域ギャップを回避している。
その結果、LiDARに基づく人物検出の実践的な洞察を与え、関連する移動ロボットの設計と応用に関する情報決定を容易にする。
論文 参考訳(メタデータ) (2021-06-21T16:35:49Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Low Dimensional State Representation Learning with Reward-shaped Priors [7.211095654886105]
本研究では,観測結果から低次元状態空間への写像の学習を目的とした手法を提案する。
このマッピングは、環境とタスクの事前知識を組み込むために形作られた損失関数を用いて教師なしの学習で学習される。
本手法は,シミュレーション環境における移動ロボットナビゲーションタスクおよび実ロボット上でのテストを行う。
論文 参考訳(メタデータ) (2020-07-29T13:00:39Z) - Autonomous Exploration Under Uncertainty via Deep Reinforcement Learning
on Graphs [5.043563227694137]
本研究では,移動ロボットが事前の未知環境におけるランドマークの正確なマッピングをリアルタイムで効率的に行うという自律的な探索問題を考察する。
本稿では,グラフニューラルネットワーク(GNN)と深部強化学習(DRL)を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-24T16:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。