論文の概要: See What the Robot Can't See: Learning Cooperative Perception for Visual
Navigation
- arxiv url: http://arxiv.org/abs/2208.00759v5
- Date: Mon, 31 Jul 2023 16:40:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 00:36:06.910222
- Title: See What the Robot Can't See: Learning Cooperative Perception for Visual
Navigation
- Title(参考訳): ロボットが見えないものを見る: 視覚ナビゲーションのための協調的知覚の学習
- Authors: Jan Blumenkamp and Qingbiao Li and Binyu Wang and Zhe Liu and Amanda
Prorok
- Abstract要約: センサをトレーニングして、関連する視点情報を移動ロボットにエンコードし、伝達する。
我々は、全てのセンサーが目標への最短経路に沿って方向を予測できるようにするという課題を克服する。
その結果,センサとロボットの通信により,SPLの最大2.0倍の改善が達成された。
- 参考スコア(独自算出の注目度): 11.943412856714154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of navigating a mobile robot towards a target in an
unknown environment that is endowed with visual sensors, where neither the
robot nor the sensors have access to global positioning information and only
use first-person-view images. In order to overcome the need for positioning, we
train the sensors to encode and communicate relevant viewpoint information to
the mobile robot, whose objective it is to use this information to navigate to
the target along the shortest path. We overcome the challenge of enabling all
the sensors (even those that cannot directly see the target) to predict the
direction along the shortest path to the target by implementing a
neighborhood-based feature aggregation module using a Graph Neural Network
(GNN) architecture. In our experiments, we first demonstrate generalizability
to previously unseen environments with various sensor layouts. Our results show
that by using communication between the sensors and the robot, we achieve up to
2.0x improvement in SPL (Success weighted by Path Length) when compared to a
communication-free baseline. This is done without requiring a global map,
positioning data, nor pre-calibration of the sensor network. Second, we perform
a zero-shot transfer of our model from simulation to the real world. Laboratory
experiments demonstrate the feasibility of our approach in various cluttered
environments. Finally, we showcase examples of successful navigation to the
target while both the sensor network layout as well as obstacles are
dynamically reconfigured as the robot navigates. We provide a video demo, the
dataset, trained models, and source code.
https://www.youtube.com/watch?v=kcmr6RUgucw
https://github.com/proroklab/sensor-guided-visual-nav
- Abstract(参考訳): 視覚センサが組み込まれている未知の環境において,移動ロボットが目標に向かって移動する際には,ロボットもセンサもグローバルな位置情報にアクセスできず,一対一の画像のみを使用するという問題を考える。
位置決めの必要性を克服するため,我々はセンサを訓練し,関連する視点情報を移動ロボットにエンコードし,伝達させる。
グラフニューラルネットワーク (GNN) アーキテクチャを用いて, 近接型特徴集約モジュールを実装することにより, 目標への最短経路に沿った方向を予測できる全センサ(ターゲットを直接見ることができないものであっても) の実現という課題を克服する。
実験では,センサレイアウトの異なる未認識環境に対して,まず一般化可能性を示す。
その結果,センサとロボット間の通信により,splの最大2.0倍の改善(経路長重み付けによる成功)が得られた。
これは、グローバルマップ、測位データ、センサネットワークの事前校正を必要とせずに行われる。
第2に、シミュレーションから実世界へのモデルをゼロショット転送する。
実験室では, 様々な乱雑な環境下でのアプローチの有効性を実証した。
最後に,ロボットの移動に伴ってセンサネットワークレイアウトと障害物が動的に再構成されながら,目標へのナビゲーションが成功した例を示す。
ビデオデモ、データセット、トレーニングされたモデル、ソースコードを提供しています。
https://www.youtube.com/watch?
v=kcmr6RUgucw https://github.com/proroklab/sensor-guided-visual-nav
関連論文リスト
- Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - Multimodal Anomaly Detection based on Deep Auto-Encoder for Object Slip
Perception of Mobile Manipulation Robots [22.63980025871784]
提案フレームワークは,RGBや深度カメラ,マイク,力トルクセンサなど,さまざまなロボットセンサから収集した異種データストリームを統合する。
統合されたデータは、ディープオートエンコーダを訓練して、通常の状態を示す多感覚データの潜在表現を構築するために使用される。
次に、トレーニングされたエンコーダの潜伏値と再構成された入力データの潜伏値との差によって測定された誤差スコアによって異常を識別することができる。
論文 参考訳(メタデータ) (2024-03-06T09:15:53Z) - LPAC: Learnable Perception-Action-Communication Loops with Applications
to Coverage Control [80.86089324742024]
本稿では,その問題に対する学習可能なパーセプション・アクション・コミュニケーション(LPAC)アーキテクチャを提案する。
CNNは局所認識を処理する。グラフニューラルネットワーク(GNN)はロボットのコミュニケーションを促進する。
評価の結果,LPACモデルは標準分散型および集中型カバレッジ制御アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-01-10T00:08:00Z) - HabitatDyn Dataset: Dynamic Object Detection to Kinematics Estimation [16.36110033895749]
本稿では,合成RGBビデオ,セマンティックラベル,深度情報,および運動情報を含むデータセットHabitatDynを提案する。
HabitatDynは移動カメラを搭載した移動ロボットの視点で作られ、6種類の移動物体をさまざまな速度で撮影する30のシーンを含んでいる。
論文 参考訳(メタデータ) (2023-04-21T09:57:35Z) - Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Bayesian Imitation Learning for End-to-End Mobile Manipulation [80.47771322489422]
RGB + 深度カメラのような追加のセンサー入力によるポリシーの強化は、ロボットの知覚能力を改善するための簡単なアプローチである。
畳み込みニューラルネットワークを正規化するために変分情報ボトルネックを用いることで、保持領域への一般化が向上することを示す。
提案手法は, シミュレーションと現実のギャップを埋めることと, RGBと奥行き変調をうまく融合できることを実証する。
論文 参考訳(メタデータ) (2022-02-15T17:38:30Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - Few-Shot Visual Grounding for Natural Human-Robot Interaction [0.0]
本稿では,人間ユーザによって音声で示される,混み合ったシーンから対象物を分割するソフトウェアアーキテクチャを提案する。
システムのコアでは、視覚的な接地のためにマルチモーダルディープニューラルネットワークを使用します。
公開シーンデータセットから収集した実RGB-Dデータに対して,提案モデルの性能を評価する。
論文 参考訳(メタデータ) (2021-03-17T15:24:02Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - A Few Shot Adaptation of Visual Navigation Skills to New Observations
using Meta-Learning [12.771506155747893]
本稿では,新しいセンサ構成やターゲットオブジェクトへの迅速な適応を可能にする学習アルゴリズムを提案する。
実験の結果,学習したナビゲーションポリシーを,未知の状況に対してわずか3ショットで適用できることが判明した。
論文 参考訳(メタデータ) (2020-11-06T21:53:52Z) - Deep Reinforcement learning for real autonomous mobile robot navigation
in indoor environments [0.0]
本研究では,地図やプランナーを使わずに,未知の環境下での自律型自律学習ロボットナビゲーションの概念を実証する。
ロボットの入力は、2DレーザースキャナーとRGB-Dカメラからの融合データと目標への向きのみである。
Asynchronous Advantage Actor-Critic Network(GA3C)の出力動作は、ロボットの線形および角速度である。
論文 参考訳(メタデータ) (2020-05-28T09:15:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。