論文の概要: Interactive Navigation in Environments with Traversable Obstacles Using
Large Language and Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.08873v3
- Date: Wed, 13 Mar 2024 02:53:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:28:01.763856
- Title: Interactive Navigation in Environments with Traversable Obstacles Using
Large Language and Vision-Language Models
- Title(参考訳): トラバース可能な障害物を用いた環境におけるインタラクティブナビゲーション
大規模言語と視覚言語モデル
- Authors: Zhen Zhang, Anran Lin, Chun Wai Wong, Xiangyu Chu, Qi Dou, and K. W.
Samuel Au
- Abstract要約: 本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は、微調整なしで効果的な経路計画を行うためのアクション対応コストマップを作成する。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
- 参考スコア(独自算出の注目度): 14.871309526022516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes an interactive navigation framework by using large
language and vision-language models, allowing robots to navigate in
environments with traversable obstacles. We utilize the large language model
(GPT-3.5) and the open-set Vision-language Model (Grounding DINO) to create an
action-aware costmap to perform effective path planning without fine-tuning.
With the large models, we can achieve an end-to-end system from textual
instructions like "Can you pass through the curtains to deliver medicines to
me?", to bounding boxes (e.g., curtains) with action-aware attributes. They can
be used to segment LiDAR point clouds into two parts: traversable and
untraversable parts, and then an action-aware costmap is constructed for
generating a feasible path. The pre-trained large models have great
generalization ability and do not require additional annotated data for
training, allowing fast deployment in the interactive navigation tasks. We
choose to use multiple traversable objects such as curtains and grasses for
verification by instructing the robot to traverse them. Besides, traversing
curtains in a medical scenario was tested. All experimental results
demonstrated the proposed framework's effectiveness and adaptability to diverse
environments.
- Abstract(参考訳): 本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。
我々は,大規模言語モデル (GPT-3.5) とオープンセットのビジョン言語モデル (Grounding DINO) を用いて,アクション対応のコストマップを作成し,微調整なしで効果的な経路計画を行う。
大規模なモデルでは、"カーテンを通り抜けて私に薬を届けるのか?"といったテキストによる指示から、アクション対応属性を持つボックス(例えばカーテン)まで、エンドツーエンドのシステムを実現することができる。
それらはLiDARの点雲を2つの部分に分けられる: トラバース可能と非トラバース可能の2つの部分、そして、実行可能なパスを生成するためにアクション対応のコストマップを構築する。
事前訓練された大きなモデルは、高度な一般化能力を持ち、トレーニングのために追加の注釈付きデータを必要としないため、インタラクティブなナビゲーションタスクの迅速な展開が可能になる。
我々は,カーテンや草など複数の移動可能な物体を用いて,ロボットに移動を指示することで検証を行う。
また,医療シナリオにおけるカーテンの走行試験を行った。
すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
関連論文リスト
- Lyrics: Boosting Fine-grained Language-Vision Alignment and
Comprehension via Semantic-aware Visual Objects [36.49703374567597]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Navigation with Large Language Models: Semantic Guesswork as a Heuristic
for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。
言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。
実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文 参考訳(メタデータ) (2023-10-16T06:21:06Z) - Multimodal Large Language Model for Visual Navigation [20.53387240108225]
提案手法は,視覚ナビゲーションのための大規模言語モデルを,広範囲な迅速なエンジニアリングなしに微調整することを目的としている。
我々の設計には、単純なテキストプロンプト、現在の観測、過去の観測から情報を入力として収集する履歴収集モデルが含まれる。
我々は、Habitat-Matterport 3Dデータセットから人間の実演と衝突信号を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2023-10-12T19:01:06Z) - LangNav: Language as a Perceptual Representation for Navigation [66.65847547795593]
視覚・言語ナビゲーションにおける知覚表現としての言語の利用について検討する。
我々のアプローチでは、市販の視覚システムを使用して、エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - Polyline Based Generative Navigable Space Segmentation for Autonomous
Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。
提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文 参考訳(メタデータ) (2021-10-29T19:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。