論文の概要: Exploring Unseen Environments with Robots using Large Language and Vision Models through a Procedurally Generated 3D Scene Representation
- arxiv url: http://arxiv.org/abs/2404.00318v1
- Date: Sat, 30 Mar 2024 10:54:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 04:20:25.958320
- Title: Exploring Unseen Environments with Robots using Large Language and Vision Models through a Procedurally Generated 3D Scene Representation
- Title(参考訳): 手続き的に生成された3次元シーン表現による大規模言語と視覚モデルを用いたロボットによる見えない環境の探索
- Authors: Arjun P S, Andrew Melnik, Gora Chand Nandi,
- Abstract要約: 本研究は,人間の認知を模倣して物体目標ナビゲーション問題を解決することに焦点を当てる。
対象の探索に慣れない環境を探索できる包括的フレームワークを提案する。
LLMを使ってハイレベルなサブゴールを生成する場合の課題は、ロボットの周囲の環境を効率的に表現することである。
- 参考スコア(独自算出の注目度): 0.979851640406258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Generative Artificial Intelligence, particularly in the realm of Large Language Models (LLMs) and Large Vision Language Models (LVLMs), have enabled the prospect of leveraging cognitive planners within robotic systems. This work focuses on solving the object goal navigation problem by mimicking human cognition to attend, perceive and store task specific information and generate plans with the same. We introduce a comprehensive framework capable of exploring an unfamiliar environment in search of an object by leveraging the capabilities of Large Language Models(LLMs) and Large Vision Language Models (LVLMs) in understanding the underlying semantics of our world. A challenging task in using LLMs to generate high level sub-goals is to efficiently represent the environment around the robot. We propose to use a 3D scene modular representation, with semantically rich descriptions of the object, to provide the LLM with task relevant information. But providing the LLM with a mass of contextual information (rich 3D scene semantic representation), can lead to redundant and inefficient plans. We propose to use an LLM based pruner that leverages the capabilities of in-context learning to prune out irrelevant goal specific information.
- Abstract(参考訳): 生成人工知能の最近の進歩、特にLVLM(Large Language Models)とLVLM(Large Vision Language Models)の領域では、ロボットシステムにおける認知プランナーの活用が期待されている。
この研究は、人間の認知を模倣してタスク固有の情報に参画し、知覚し、保存し、同じ方法で計画を作成することによって、目標ナビゲーション問題を解決することに焦点を当てている。
本稿では,Large Language Models (LLMs) とLarge Vision Language Models (LVLMs) の能力を生かして,オブジェクトの探索に慣れない環境を探索できる包括的フレームワークを提案する。
LLMを使ってハイレベルなサブゴールを生成する場合の課題は、ロボットの周囲の環境を効率的に表現することである。
本稿では,LLMにタスク関連情報を提供するために,オブジェクトを意味的にリッチに記述した3次元シーンのモジュラー表現を提案する。
しかし、LLMに大量のコンテキスト情報(リッチな3Dシーンセマンティック表現)を提供することは、冗長で非効率な計画につながる可能性がある。
我々は、文脈内学習の能力を活用して、無関係な目標固有情報を抽出するLLMベースのプルーナーを提案する。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Go-SLAM: Grounded Object Segmentation and Localization with Gaussian Splatting SLAM [12.934788858420752]
Go-SLAMは動的環境の再構築に3DガウススティングSLAMを利用する新しいフレームワークである。
本システムは,自然言語記述によるオブジェクトの検索を容易にする。
論文 参考訳(メタデータ) (2024-09-25T13:56:08Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - RoboEXP: Action-Conditioned Scene Graph via Interactive Exploration for Robotic Manipulation [21.387160107315797]
本稿では,ロボットが自律的に環境を探索し,行動条件付きシーングラフ(ACSG)を作成する,インタラクティブなシーン探索という新たな課題を紹介する。
ACSGは、シーン内の低レベル情報(幾何学と意味論)と高レベル情報(異なるエンティティ間のアクション条件付き関係)の両方を記述している。
本稿では,LMM(Large Multimodal Model)と明示的なメモリ設計を取り入れたロボット探索システム(RoboEXP)を提案する。
論文 参考訳(メタデータ) (2024-02-23T18:27:17Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Look Before You Leap: Unveiling the Power of GPT-4V in Robotic
Vision-Language Planning [32.045840007623276]
本稿では,ロボットビジョン・ランゲージ計画(ViLa)について紹介する。
ViLaは、知覚データを推論と計画プロセスに直接統合する。
実ロボットとシミュレーション環境の両方で実施した評価は,既存のLCMプランナよりもViLaの方が優れていることを示す。
論文 参考訳(メタデータ) (2023-11-29T17:46:25Z) - WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model [92.90127398282209]
本稿では,最新のLarge Language Models(LLM)と既存のビジュアルグラウンドとロボットグルーピングシステムを統合する可能性について検討する。
本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。
我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。
論文 参考訳(メタデータ) (2023-08-30T11:35:21Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Distributed Reinforcement Learning of Targeted Grasping with Active
Vision for Mobile Manipulators [4.317864702902075]
移動体マニピュレータのための最初のRLベースのシステムを提案する。これは、(a)対象対象物に対する目標把握の一般化を実現し、(b)隠蔽対象物による乱れたシーンの複雑な把握戦略を学習し、(c)可動式手首カメラでアクティブなビジョンを実行し、オブジェクトの発見をより良くする。
シミュレーション環境でシステムのトレーニングと評価を行い,性能向上,動作解析,実環境への移動といった重要なコンポーネントを特定した。
論文 参考訳(メタデータ) (2020-07-16T02:47:48Z) - Object Goal Navigation using Goal-Oriented Semantic Exploration [98.14078233526476]
本研究は,未確認環境における対象カテゴリーのインスタンスにナビゲートするオブジェクトゴールナビゲーションの問題を研究する。
本稿では,表層的なセマンティックマップを構築し,効率的に環境を探索する「ゴール指向セマンティック探索」というモジュールシステムを提案する。
論文 参考訳(メタデータ) (2020-07-01T17:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。