論文の概要: Leveraging Large Language Models for Robot 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2209.05629v1
- Date: Mon, 12 Sep 2022 21:36:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:04:53.299808
- Title: Leveraging Large Language Models for Robot 3D Scene Understanding
- Title(参考訳): ロボット3dシーン理解のための大規模言語モデル活用
- Authors: William Chen, Siyi Hu, Rajat Talak, Luca Carlone
- Abstract要約: 本稿では,室内環境における部屋の分類に言語を活用するための3つのパラダイムを紹介する。
これらの手法は、現代の空間認識システムによって生成された3次元シーングラフで動作する。
これらの手法は,部屋内から建物ラベルを推定し,実環境におけるゼロショット・アプローチの実証にも有効であることを示す。
- 参考スコア(独自算出の注目度): 25.270772036342688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic 3D scene understanding is a problem of critical importance in
robotics. While significant advances have been made in spatial perception,
robots are still far from having the common-sense knowledge about household
objects and locations of an average human. We thus investigate the use of large
language models to impart common sense for scene understanding. Specifically,
we introduce three paradigms for leveraging language for classifying rooms in
indoor environments based on their contained objects: (i) a zero-shot approach,
(ii) a feed-forward classifier approach, and (iii) a contrastive classifier
approach. These methods operate on 3D scene graphs produced by modern spatial
perception systems. We then analyze each approach, demonstrating notable
zero-shot generalization and transfer capabilities stemming from their use of
language. Finally, we show these approaches also apply to inferring building
labels from contained rooms and demonstrate our zero-shot approach on a real
environment. All code can be found at
https://github.com/MIT-SPARK/llm_scene_understanding.
- Abstract(参考訳): セマンティック3dシーン理解はロボット工学において重要な問題である。
空間的知覚において大きな進歩はあったが、ロボットは平均的な人間の家や場所に関する常識的な知識を持つには程遠い。
本研究では,シーン理解に共通理解を与えるための大規模言語モデルの利用について検討する。
具体的には,室内環境における部屋の分類に言語を活用するための3つのパラダイムを紹介する。
(i)ゼロショットアプローチ。
(ii)フィードフォワード分類器アプローチ、及び
(iii) 対照的な分類法。
これらの手法は、現代の空間認識システムによって生成された3次元シーングラフで動作する。
次に,それぞれのアプローチを分析し,ゼロショット一般化と言語使用による伝達能力を示す。
最後に,これらの手法を室内の建築ラベルの推測に適用し,実環境におけるゼロショットアプローチを実証する。
すべてのコードはhttps://github.com/MIT-SPARK/llm_scene_understandingで見ることができる。
関連論文リスト
- Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - Language-Driven Representation Learning for Robotics [115.93273609767145]
ロボット工学における視覚表現学習の最近の研究は、日々の作業を行う人間の大規模なビデオデータセットから学ぶことの可能性を実証している。
人間のビデオやキャプションから言語による表現学習を行うためのフレームワークを提案する。
我々は、Voltronの言語駆動学習が、特に高レベル制御を必要とするターゲット問題において、先行技術よりも優れていることを発見した。
論文 参考訳(メタデータ) (2023-02-24T17:29:31Z) - Paparazzi: A Deep Dive into the Capabilities of Language and Vision
Models for Grounding Viewpoint Descriptions [4.026600887656479]
現状の言語とビジョンモデルであるCLIPが、3Dオブジェクトの視点記述を基盤として利用できるかどうかを考察する。
本稿では,3次元物体の周囲に回転するカメラを用いて異なる視点から画像を生成する評価フレームワークを提案する。
事前訓練されたCLIPモデルは、ほとんどの標準ビューでは性能が良くないことがわかった。
論文 参考訳(メタデータ) (2023-02-13T15:18:27Z) - Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文 参考訳(メタデータ) (2022-06-09T16:05:35Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。