論文の概要: Learning to Navigate using Visual Sensor Networks
- arxiv url: http://arxiv.org/abs/2208.00759v1
- Date: Mon, 1 Aug 2022 11:37:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-02 15:02:06.391526
- Title: Learning to Navigate using Visual Sensor Networks
- Title(参考訳): 視覚センサネットワークを用いたナビゲーション学習
- Authors: Jan Blumenkamp and Qingbiao Li and Binyu Wang and Zhe Liu and Amanda
Prorok
- Abstract要約: 視覚センサを内蔵した未知環境において,移動ロボットを目標に向かって移動させることの問題点を考察する。
本稿では、グラフニューラルネットワーク(GNN)を利用した視覚のみに基づく学習手法を提案し、関連する視点情報を移動ロボットにエンコードし、伝達する。
- 参考スコア(独自算出の注目度): 11.943412856714154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of navigating a mobile robot towards a target in an
unknown environment that is endowed with visual sensors, where neither the
robot nor the sensors have access to global positioning information and only
use first-person-view images. While prior work in sensor network based
navigation uses explicit mapping and planning techniques, and are often aided
by external positioning systems, we propose a vision-only based learning
approach that leverages a Graph Neural Network (GNN) to encode and communicate
relevant viewpoint information to the mobile robot. During navigation, the
robot is guided by a model that we train through imitation learning to
approximate optimal motion primitives, thereby predicting the effective
cost-to-go (to the target). In our experiments, we first demonstrate
generalizability to previously unseen environments with various sensor layouts.
Simulation results show that by utilizing communication among the sensors and
robot, we can achieve a $18.1\%$ improvement in success rate while decreasing
path detour mean by $29.3\%$ and variability by $48.4\%$. This is done without
requiring a global map, positioning data, nor pre-calibration of the sensor
network. Second, we perform a zero-shot transfer of our model from simulation
to the real world. To this end, we train a `translator' model that translates
between {latent encodings of} real and simulated images so that the navigation
policy (which is trained entirely in simulation) can be used directly on the
real robot, without additional fine-tuning. Physical experiments demonstrate
our effectiveness in various cluttered environments.
- Abstract(参考訳): 視覚センサが組み込まれている未知の環境において,移動ロボットが目標に向かって移動する際には,ロボットもセンサもグローバルな位置情報にアクセスできず,一対一の画像のみを使用するという問題を考える。
センサネットワークベースのナビゲーションでは、明示的なマッピングと計画手法が用いられ、しばしば外部の位置決めシステムによって支援されるが、グラフニューラルネットワーク(gnn)を利用して、関連する視点情報をモバイルロボットにエンコードし、通信するビジョンのみベースの学習手法を提案する。
ナビゲーション中、ロボットは模倣学習を通じて学習し、最適な動きプリミティブを近似し、効果的に(目標への)コストを予測するモデルで案内される。
実験では,センサレイアウトの異なる未認識環境に対して,まず一般化可能性を示す。
シミュレーションの結果、センサとロボット間のコミュニケーションを利用することで、パス・デトロー平均を29.3\%、変動可能性(variability)を48.4\%、成功率を18.1\%向上できることがわかった。
これは、グローバルマップ、測位データ、センサネットワークの事前校正を必要とせずに行われる。
第2に、シミュレーションから実世界へのモデルをゼロショット転送する。
この目的のために,実画像とシミュレーション画像の相対エンコーディングを変換する「トランスレータ」モデルを訓練し,ナビゲーションポリシー(完全にシミュレーションで訓練された)を,追加の微調整をすることなく実ロボットに直接使用できるようにする。
物理実験は、様々な乱雑な環境での有効性を実証する。
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip
Perception of Mobile Manipulation Robots [22.63980025871784]
提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。
統合されたデータは、ディープオートエンコーダを訓練して、通常の状態を示す多感覚データの潜在表現を構築するために使用される。
次に、トレーニングされたエンコーダの潜伏値と再構成された入力データの潜伏値との差によって測定された誤差スコアによって異常を識別することができる。
論文 参考訳(メタデータ) (2024-03-06T09:15:53Z) - LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - A Few Shot Adaptation of Visual Navigation Skills to New Observations
using Meta-Learning [12.771506155747893]
本稿では,新しいセンサ構成やターゲットオブジェクトへの迅速な適応を可能にする学習アルゴリズムを提案する。
実験の結果,学習したナビゲーションポリシーを,未知の状況に対してわずか3ショットで適用できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T21:53:52Z) - Deep Reinforcement learning for real autonomous mobile robot navigation
in indoor environments [0.0]
本研究では,地図やプランナーを使わずに,未知の環境下での自律型自律学習ロボットナビゲーションの概念を実証する。
ロボットの入力は、2DレーザースキャナーとRGB-Dカメラからの融合データと目標への向きのみである。
Asynchronous Advantage Actor-Critic Network(GA3C)の出力動作は、ロボットの線形および角速度である。
論文 参考訳(メタデータ) (2020-05-28T09:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。