論文の概要: Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2206.04585v1
- Date: Thu, 9 Jun 2022 16:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 18:24:46.875891
- Title: Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding
- Title(参考訳): ロボット3dシーン理解のための大規模言語モデルからのゼロショット常識の抽出
- Authors: William Chen, Siyi Hu, Rajat Talak, Luca Carlone
- Abstract要約: 本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
- 参考スコア(独自算出の注目度): 25.270772036342688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic 3D scene understanding is a problem of critical importance in
robotics. While significant advances have been made in simultaneous
localization and mapping algorithms, robots are still far from having the
common sense knowledge about household objects and their locations of an
average human. We introduce a novel method for leveraging common sense embedded
within large language models for labelling rooms given the objects contained
within. This algorithm has the added benefits of (i) requiring no task-specific
pre-training (operating entirely in the zero-shot regime) and (ii) generalizing
to arbitrary room and object labels, including previously-unseen ones -- both
of which are highly desirable traits in robotic scene understanding algorithms.
The proposed algorithm operates on 3D scene graphs produced by modern spatial
perception systems, and we hope it will pave the way to more generalizable and
scalable high-level 3D scene understanding for robotics.
- Abstract(参考訳): セマンティック3dシーン理解はロボット工学において重要な問題である。
ローカライズとマッピングを同時に行うアルゴリズムは大きな進歩を遂げているが、ロボットは一般家庭の物体や、平均的な人間の位置に関する常識知識を持つには程遠い。
本研究では,大きな言語モデルに埋め込まれた共通感覚を,その内に含まれるオブジェクトをラベル付けするための新しい手法を提案する。
このアルゴリズムには付加的な利点がある
(i)タスク特化事前訓練(ゼロショット体制で完全に運用)を必要とせず
(II) ロボットシーン理解アルゴリズムにおいて非常に望ましい特徴である、前例のないものを含む任意の部屋やオブジェクトラベルへの一般化。
提案アルゴリズムは,現代空間認識システムによって生成された3次元シーングラフに基づいており,ロボット工学におけるより汎用的でスケーラブルな3次元シーン理解の道を開くことを願っている。
関連論文リスト
- RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
室内とテーブルトップのシーンを3Dスキャンで捉えた大規模な空間理解データセットであるRoboSpatialと,ロボット工学に関連する豊富な空間情報を付加したエゴセントリック画像を紹介する。
実験の結果,RoboSpatialで訓練したモデルは,空間的空き時間予測,空間的関係予測,ロボット操作といった下流タスクのベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - ConceptGraphs: Open-Vocabulary 3D Scene Graphs for Perception and
Planning [125.90002884194838]
ConceptGraphsはオープンな3Dシーン用のグラフ構造化表現である。
2Dファウンデーションモデルを活用し、マルチビューアソシエーションによってアウトプットを3Dに融合することで構築される。
我々は,この表現の有用性を,下流の計画タスクを通じて実証する。
論文 参考訳(メタデータ) (2023-09-28T17:53:38Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - Generalized Object Search [0.9137554315375919]
この論文は、不確実な3次元環境における多目的探索のための方法とシステムを開発する。
ロボットに依存しない,環境に依存しない3次元物体探索システムを構築した。
私はBoston Dynamics Spotロボット、Kinova MOVOロボット、Universal Robots UR5eロボットアームにデプロイしました。
論文 参考訳(メタデータ) (2023-01-24T16:41:36Z) - Leveraging Large (Visual) Language Models for Robot 3D Scene
Understanding [25.860680905256174]
本研究では,シーン理解に共通した感覚を与えるために,事前学習言語モデルを用いることを検討する。
両カテゴリの最良のアプローチは、$sim 70%$の部屋分類精度が得られる。
論文 参考訳(メタデータ) (2022-09-12T21:36:58Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。