論文の概要: Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2206.04585v1
- Date: Thu, 9 Jun 2022 16:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 18:24:46.875891
- Title: Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding
- Title(参考訳): ロボット3dシーン理解のための大規模言語モデルからのゼロショット常識の抽出
- Authors: William Chen, Siyi Hu, Rajat Talak, Luca Carlone
- Abstract要約: 本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
- 参考スコア(独自算出の注目度): 25.270772036342688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic 3D scene understanding is a problem of critical importance in
robotics. While significant advances have been made in simultaneous
localization and mapping algorithms, robots are still far from having the
common sense knowledge about household objects and their locations of an
average human. We introduce a novel method for leveraging common sense embedded
within large language models for labelling rooms given the objects contained
within. This algorithm has the added benefits of (i) requiring no task-specific
pre-training (operating entirely in the zero-shot regime) and (ii) generalizing
to arbitrary room and object labels, including previously-unseen ones -- both
of which are highly desirable traits in robotic scene understanding algorithms.
The proposed algorithm operates on 3D scene graphs produced by modern spatial
perception systems, and we hope it will pave the way to more generalizable and
scalable high-level 3D scene understanding for robotics.
- Abstract(参考訳): セマンティック3dシーン理解はロボット工学において重要な問題である。
ローカライズとマッピングを同時に行うアルゴリズムは大きな進歩を遂げているが、ロボットは一般家庭の物体や、平均的な人間の位置に関する常識知識を持つには程遠い。
本研究では,大きな言語モデルに埋め込まれた共通感覚を,その内に含まれるオブジェクトをラベル付けするための新しい手法を提案する。
このアルゴリズムには付加的な利点がある
(i)タスク特化事前訓練(ゼロショット体制で完全に運用)を必要とせず
(II) ロボットシーン理解アルゴリズムにおいて非常に望ましい特徴である、前例のないものを含む任意の部屋やオブジェクトラベルへの一般化。
提案アルゴリズムは,現代空間認識システムによって生成された3次元シーングラフに基づいており,ロボット工学におけるより汎用的でスケーラブルな3次元シーン理解の道を開くことを願っている。
関連論文リスト
- Generalized Object Search [0.9137554315375919]
この論文は、不確実な3次元環境における多目的探索のための方法とシステムを開発する。
ロボットに依存しない,環境に依存しない3次元物体探索システムを構築した。
私はBoston Dynamics Spotロボット、Kinova MOVOロボット、Universal Robots UR5eロボットアームにデプロイしました。
論文 参考訳(メタデータ) (2023-01-24T16:41:36Z) - Leveraging Large Language Models for Robot 3D Scene Understanding [25.270772036342688]
本稿では,室内環境における部屋の分類に言語を活用するための3つのパラダイムを紹介する。
これらの手法は、現代の空間認識システムによって生成された3次元シーングラフで動作する。
これらの手法は,部屋内から建物ラベルを推定し,実環境におけるゼロショット・アプローチの実証にも有効であることを示す。
論文 参考訳(メタデータ) (2022-09-12T21:36:58Z) - Semantic Abstraction: Open-World 3D Scene Understanding from 2D
Vision-Language Models [17.606199768716532]
オープンセットの語彙とドメイン外視覚入力を用いて,エージェントが自身の3D環境を判断する必要があるタスクのファミリーである,オープンワールドの3Dシーン理解について検討する。
本稿では,2次元視覚言語モデルに新しい空間能力を付加したセマンティック抽象化(Semantic Abstraction, SemAbs)を提案する。
オープンワールド3Dシーン理解タスクにおけるSemAbsの有用性を示す。
論文 参考訳(メタデータ) (2022-07-23T13:10:25Z) - Object Scene Representation Transformer [56.40544849442227]
オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成を通じて、個々のオブジェクト表現が自然に現れる3D中心のモデルである。
OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。
光電場パラメトリゼーションと新しいSlot Mixerデコーダのおかげで、合成レンダリングでは桁違いに高速である。
論文 参考訳(メタデータ) (2022-06-14T15:40:47Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - 3D Neural Scene Representations for Visuomotor Control [78.79583457239836]
我々は2次元視覚観測から動的3次元シーンのモデルを純粋に学習する。
学習した表現空間上に構築された動的モデルにより,操作課題に対するビジュモータ制御が可能となる。
論文 参考訳(メタデータ) (2021-07-08T17:49:37Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Unsupervised Learning of Visual 3D Keypoints for Control [104.92063943162896]
高次元画像からの感覚運動制御ポリシーの学習は、基礎となる視覚表現の品質に大きく依存する。
本稿では,画像から3次元幾何学的構造を直接教師なしで学習するフレームワークを提案する。
これらの発見された3Dキーポイントは、時間と3D空間の両方で一貫した方法で、ロボットの関節と物体の動きを有意義にキャプチャする傾向がある。
論文 参考訳(メタデータ) (2021-06-14T17:59:59Z) - Task-relevant Representation Learning for Networked Robotic Perception [74.0215744125845]
本稿では,事前学習されたロボット知覚モデルの最終的な目的と協調して設計された感覚データのタスク関連表現を学習するアルゴリズムを提案する。
本アルゴリズムは,ロボットの知覚データを競合する手法の最大11倍まで積極的に圧縮する。
論文 参考訳(メタデータ) (2020-11-06T07:39:08Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。