論文の概要: Reflex-Based Open-Vocabulary Navigation without Prior Knowledge Using Omnidirectional Camera and Multiple Vision-Language Models
- arxiv url: http://arxiv.org/abs/2408.11380v1
- Date: Wed, 21 Aug 2024 07:18:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 18:09:27.474710
- Title: Reflex-Based Open-Vocabulary Navigation without Prior Knowledge Using Omnidirectional Camera and Multiple Vision-Language Models
- Title(参考訳): 全方位カメラと複数視野言語モデルを用いた反射型開語彙ナビゲーション
- Authors: Kento Kawaharazuka, Yoshiki Obinata, Naoaki Kanazawa, Naoto Tsukamoto, Kei Okada, Masayuki Inaba,
- Abstract要約: 地図構築や学習を一切必要としない最も単純な手法を考察し、事前知識のないロボットのオープン語彙ナビゲーションを実行する。
ロボットに全方向カメラと事前学習された視覚言語モデルを適用した。
- 参考スコア(独自算出の注目度): 16.198686219364063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various robot navigation methods have been developed, but they are mainly based on Simultaneous Localization and Mapping (SLAM), reinforcement learning, etc., which require prior map construction or learning. In this study, we consider the simplest method that does not require any map construction or learning, and execute open-vocabulary navigation of robots without any prior knowledge to do this. We applied an omnidirectional camera and pre-trained vision-language models to the robot. The omnidirectional camera provides a uniform view of the surroundings, thus eliminating the need for complicated exploratory behaviors including trajectory generation. By applying multiple pre-trained vision-language models to this omnidirectional image and incorporating reflective behaviors, we show that navigation becomes simple and does not require any prior setup. Interesting properties and limitations of our method are discussed based on experiments with the mobile robot Fetch.
- Abstract(参考訳): 各種のロボットナビゲーション手法が開発されているが、主に地図作成や学習を必要とするSLAM、強化学習等をベースとしている。
本研究では,地図構築や学習を一切必要としない最も単純な手法を考察し,それを行うための事前の知識を必要とせずに,ロボットのオープン語彙ナビゲーションを行う。
ロボットに全方向カメラと事前学習された視覚言語モデルを適用した。
全方位カメラは周囲の均一な視界を提供するため、軌道生成を含む複雑な探索行動は不要である。
複数の事前学習された視覚言語モデルをこの全方位画像に適用し、反射的な振る舞いを取り入れることで、ナビゲーションがシンプルになり、事前設定を必要としないことを示す。
移動ロボットFetchの実験に基づいて,本手法の興味深い特性と限界について考察した。
関連論文リスト
- Open-World Object Manipulation using Pre-trained Vision-Language Models [72.87306011500084]
ロボットが人からの指示に従うためには、人間の語彙の豊かな意味情報を繋げなければならない。
我々は、事前学習された視覚言語モデルを利用して、オブジェクト識別情報を抽出するシンプルなアプローチを開発する。
実際の移動マニピュレータにおける様々な実験において、MOOはゼロショットを様々な新しいオブジェクトカテゴリや環境に一般化する。
論文 参考訳(メタデータ) (2023-03-02T01:55:10Z) - Navigating to Objects in the Real World [76.1517654037993]
本稿では,古典的,モジュール的,エンド・ツー・エンドの学習手法と比較した,意味的視覚ナビゲーション手法に関する大規模な実証的研究について述べる。
モジュラー学習は実世界ではうまく機能し、90%の成功率に達しています。
対照的に、エンド・ツー・エンドの学習は、シミュレーションと現実の間の画像領域の差が大きいため、77%のシミュレーションから23%の実際の成功率へと低下する。
論文 参考訳(メタデータ) (2022-12-02T01:10:47Z) - Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。
実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-09-19T23:05:36Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - NavDreams: Towards Camera-Only RL Navigation Among Humans [35.57943738219839]
我々は,アタリゲームにおけるモデリングと学習の方針を示す世界モデルの概念が,カメラによるナビゲーション問題にも適用できるかどうかを考察する。
我々は、ロボットが目標を達成するために衝突することなく、静的で動く人間を通り過ぎなければならないシミュレーション環境を作成する。
現状の手法はナビゲーション問題の解決に成功でき、将来の画像系列の夢のような予測を生成することができる。
論文 参考訳(メタデータ) (2022-03-23T09:46:44Z) - VOILA: Visual-Observation-Only Imitation Learning for Autonomous
Navigation [44.799092976955656]
我々は、自律ナビゲーションのための新しいアルゴリズム、視覚観察のみの模倣学習(VOILA)を導入する。
VOILAは、物理的に異なるエージェントから収集された単一のビデオデモからナビゲーションポリシーを学ぶ。
本稿では,VOILAが専門家を模倣するだけでなく,新しい環境に一般化可能なナビゲーションポリシーも学習していることを示す。
論文 参考訳(メタデータ) (2021-05-19T19:25:23Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z) - ViNG: Learning Open-World Navigation with Visual Goals [82.84193221280216]
視覚的目標達成のための学習に基づくナビゲーションシステムを提案する。
提案手法は,我々がvingと呼ぶシステムが,目標条件強化学習のための提案手法を上回っていることを示す。
我々は、ラストマイル配送や倉庫検査など、現実の多くのアプリケーションでViNGを実演する。
論文 参考訳(メタデータ) (2020-12-17T18:22:32Z) - Visual Perception Generalization for Vision-and-Language Navigation via
Meta-Learning [9.519596058757033]
VLN(Vision-and-Language Navigation)は、自然言語の指示やリアルタイムで受信した視覚情報を理解することによって、エージェントが現実世界の環境をナビゲートする必要がある課題である。
本研究では、メタラーニングに基づく視覚認識一般化戦略を提案する。これにより、エージェントは数回のショットで新しいカメラ構成に迅速に適応することができる。
論文 参考訳(メタデータ) (2020-12-10T04:10:04Z) - Robot Perception enables Complex Navigation Behavior via Self-Supervised
Learning [23.54696982881734]
本稿では、強化学習(RL)によるアクティブな目標駆動ナビゲーションタスクのためのロボット認識システムの統合手法を提案する。
提案手法は,1つの画像列から直接自己スーパービジョンを用いて得られる,コンパクトな動きと視覚知覚データを時間的に組み込む。
我々は,新しいインタラクティブなCityLearnフレームワークを用いて,実世界の運転データセットであるKITTIとOxford RobotCarのアプローチを実証した。
論文 参考訳(メタデータ) (2020-06-16T07:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。