Fugu-MT 論文翻訳(概要): Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models

論文の概要: Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models

arxiv url: http://arxiv.org/abs/2310.08873v3
Date: Wed, 13 Mar 2024 02:53:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-14 18:28:01.763856
Title: Interactive Navigation in Environments with Traversable Obstacles Using Large Language and Vision-Language Models
Title（参考訳）: トラバース可能な障害物を用いた環境におけるインタラクティブナビゲーション大規模言語と視覚言語モデル
Authors: Zhen Zhang, Anran Lin, Chun Wai Wong, Xiangyu Chu, Qi Dou, and K. W. Samuel Au
Abstract要約: 本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。我々は、微調整なしで効果的な経路計画を行うためのアクション対応コストマップを作成する。すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。
参考スコア（独自算出の注目度）: 14.871309526022516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes an interactive navigation framework by using large language and vision-language models, allowing robots to navigate in environments with traversable obstacles. We utilize the large language model (GPT-3.5) and the open-set Vision-language Model (Grounding DINO) to create an action-aware costmap to perform effective path planning without fine-tuning. With the large models, we can achieve an end-to-end system from textual instructions like "Can you pass through the curtains to deliver medicines to me?", to bounding boxes (e.g., curtains) with action-aware attributes. They can be used to segment LiDAR point clouds into two parts: traversable and untraversable parts, and then an action-aware costmap is constructed for generating a feasible path. The pre-trained large models have great generalization ability and do not require additional annotated data for training, allowing fast deployment in the interactive navigation tasks. We choose to use multiple traversable objects such as curtains and grasses for verification by instructing the robot to traverse them. Besides, traversing curtains in a medical scenario was tested. All experimental results demonstrated the proposed framework's effectiveness and adaptability to diverse environments.
Abstract（参考訳）: 本稿では,大規模言語と視覚言語を用いた対話型ナビゲーションフレームワークを提案する。我々は,大規模言語モデル (GPT-3.5) とオープンセットのビジョン言語モデル (Grounding DINO) を用いて,アクション対応のコストマップを作成し,微調整なしで効果的な経路計画を行う。大規模なモデルでは、"カーテンを通り抜けて私に薬を届けるのか?"といったテキストによる指示から、アクション対応属性を持つボックス(例えばカーテン)まで、エンドツーエンドのシステムを実現することができる。それらはLiDARの点雲を2つの部分に分けられる: トラバース可能と非トラバース可能の2つの部分、そして、実行可能なパスを生成するためにアクション対応のコストマップを構築する。事前訓練された大きなモデルは、高度な一般化能力を持ち、トレーニングのために追加の注釈付きデータを必要としないため、インタラクティブなナビゲーションタスクの迅速な展開が可能になる。我々は,カーテンや草など複数の移動可能な物体を用いて,ロボットに移動を指示することで検証を行う。また,医療シナリオにおけるカーテンの走行試験を行った。すべての実験結果から,提案フレームワークの有効性と多様な環境への適応性が確認された。

関連論文リスト

Adaptive Interactive Navigation of Quadruped Robots using Large Language Models [14.14967096139099]
大規模言語モデル(LLM)を用いたタスク計画のための原始木を提案する。動作計画のための多目的移動と相互作用行動を含む総合的なスキルライブラリを事前学習するために強化学習を採用する。ツリー構造に統合されたリプランニングメカニズムにより、便利なノードの追加とプルーニングが可能になる。
論文参考訳（メタデータ） (2025-03-29T02:17:52Z)
IN-Sight: Interactive Navigation through Sight [20.184155117341497]
IN-Sightは自己監督型パスプランニングの新しいアプローチである。可逆性のスコアを計算し、セマンティックマップに組み込む。障害物を正確に回避するために、IN-Sightはローカルプランナーを使用している。
論文参考訳（メタデータ） (2024-08-01T07:27:54Z)
Constrained Robotic Navigation on Preferred Terrains Using LLMs and Speech Instruction: Exploiting the Power of Adverbs [29.507826791509384]
本稿では,生成AIを用いた地図のないオフロードナビゲーションにおける大規模言語モデルの活用について検討する。本稿では,ロボットがWhisperを通じてテキストに変換された音声命令を受信し,ランドマークや好地,重要な副詞を抽出し,制限されたナビゲーションのための速度設定に変換する手法を提案する。
論文参考訳（メタデータ） (2024-04-02T20:46:13Z)
Navigation with Large Language Models: Semantic Guesswork as a Heuristic for Planning [73.0990339667978]
不慣れな環境でのナビゲーションは、ロボットにとって大きな課題となる。言語モデルを用いて、新しい現実世界環境のバイアス探索を行う。実環境におけるLFGの評価とシミュレーションベンチマークを行った。
論文参考訳（メタデータ） (2023-10-16T06:21:06Z)
Multimodal Large Language Model for Visual Navigation [20.53387240108225]
提案手法は,視覚ナビゲーションのための大規模言語モデルを,広範囲な迅速なエンジニアリングなしに微調整することを目的としている。我々の設計には、単純なテキストプロンプト、現在の観測、過去の観測から情報を入力として収集する履歴収集モデルが含まれる。我々は、Habitat-Matterport 3Dデータセットから人間の実演と衝突信号を用いてモデルを訓練する。
論文参考訳（メタデータ） (2023-10-12T19:01:06Z)
LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文参考訳（メタデータ） (2023-10-11T20:52:30Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。 562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文参考訳（メタデータ） (2023-03-06T18:58:06Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
Polyline Based Generative Navigable Space Segmentation for Autonomous Visual Navigation [57.3062528453841]
ロボットが教師なしの方法で移動可能な空間分割を学習できるようにするための表現学習ベースのフレームワークを提案する。提案するPSV-Netは,単一のラベルを使わずとも,高精度で視覚ナビゲーション可能な空間を学習可能であることを示す。
論文参考訳（メタデータ） (2021-10-29T19:50:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。