論文の概要: Semantic Abstraction: Open-World 3D Scene Understanding from 2D
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2207.11514v1
- Date: Sat, 23 Jul 2022 13:10:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-26 15:36:47.170706
- Title: Semantic Abstraction: Open-World 3D Scene Understanding from 2D
Vision-Language Models
- Title(参考訳): セマンティック抽象化:2次元視覚言語モデルによるオープンワールド3Dシーン理解
- Authors: Huy Ha, Shuran Song
- Abstract要約: オープンセットの語彙とドメイン外視覚入力を用いて,エージェントが自身の3D環境を判断する必要があるタスクのファミリーである,オープンワールドの3Dシーン理解について検討する。
本稿では,2次元視覚言語モデルに新しい空間能力を付加したセマンティック抽象化(Semantic Abstraction, SemAbs)を提案する。
オープンワールド3Dシーン理解タスクにおけるSemAbsの有用性を示す。
- 参考スコア(独自算出の注目度): 17.606199768716532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study open-world 3D scene understanding, a family of tasks that require
agents to reason about their 3D environment with an open-set vocabulary and
out-of-domain visual inputs - a critical skill for robots to operate in the
unstructured 3D world. Towards this end, we propose Semantic Abstraction
(SemAbs), a framework that equips 2D Vision-Language Models (VLMs) with new 3D
spatial capabilities, while maintaining their zero-shot robustness. We achieve
this abstraction using relevancy maps extracted from CLIP, and learn 3D spatial
and geometric reasoning skills on top of those abstractions in a
semantic-agnostic manner. We demonstrate the usefulness of SemAbs on two
open-world 3D scene understanding tasks: 1) completing partially observed
objects and 2) localizing hidden objects from language descriptions.
Experiments show that SemAbs can generalize to novel vocabulary,
materials/lighting, classes, and domains (i.e., real-world scans) from training
on limited 3D synthetic data. Code and data will be available at
https://semantic-abstraction.cs.columbia.edu/
- Abstract(参考訳): オープンワールドの3Dシーン理解(オープンワールドの3Dシーン理解)は、エージェントがオープンセットの語彙とドメイン外の視覚入力で3D環境を判断する必要があるタスクのファミリーである。
この目的に向けて,ゼロショット・ロバスト性を維持しつつ,新たな3次元空間能力を備えた2次元視覚言語モデル(vlms)を装備するフレームワークであるセマンティック・抽象化(semabs)を提案する。
この抽象化は,CLIPから抽出した関連性マップを用いて実現し,その上に3次元空間的および幾何学的推論スキルを意味論的に学習する。
オープンワールド3Dシーン理解タスクにおけるSemAbsの有用性を示す。
1)部分的に観察された対象を完了し、
2)隠れたオブジェクトを言語記述からローカライズする。
実験により、SemAbsは、限られた3D合成データのトレーニングから、新しい語彙、材料/照明、クラス、ドメイン(現実世界のスキャン)に一般化できることが示された。
コードとデータはhttps://semantic-abstraction.cs.columbia.edu/で入手できる。
関連論文リスト
- Unlocking Textual and Visual Wisdom: Open-Vocabulary 3D Object Detection Enhanced by Comprehensive Guidance from Text and Image [70.02187124865627]
Open-vocabulary 3D object detection (OV-3DDet) は、新しい3Dシーン内において、目に見えないものの両方をローカライズし、認識することを目的としている。
視覚基盤モデルを利用して、3Dシーンにおける新しいクラスを発見するための画像的ガイダンスを提供する。
オープン語彙の3Dオブジェクト検出における基礎モデルの可能性を明らかにするとともに,精度と一般化の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-07T04:50:04Z) - Reasoning3D -- Grounding and Reasoning in 3D: Fine-Grained Zero-Shot Open-Vocabulary 3D Reasoning Part Segmentation via Large Vision-Language Models [20.277479473218513]
オブジェクトの検索とローカライズのためのZero-Shot 3D Reasoningを提案する。
複雑なコマンドを理解し実行するためのシンプルなベースラインメソッドReasoning3Dを設計する。
Reasoning3Dは、暗黙のテキストクエリに基づいて、3Dオブジェクトの一部を効果的にローカライズし、ハイライトすることができることを示す。
論文 参考訳(メタデータ) (2024-05-29T17:56:07Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - Four Ways to Improve Verbo-visual Fusion for Dense 3D Visual Grounding [56.00186960144545]
3Dビジュアルグラウンドティング(3D visual grounding)は、自然言語で記述された3Dシーンでオブジェクトをローカライズするタスクである。
そこで本研究では,高密度な3次元グラウンドネットワークを提案し,グラウンド性能向上を目的とした4つの新しいスタンドアローンモジュールを提案する。
論文 参考訳(メタデータ) (2023-09-08T19:27:01Z) - Lowis3D: Language-Driven Open-World Instance-Level 3D Scene
Understanding [57.47315482494805]
オープンワールドのインスタンスレベルのシーン理解は、アノテーション付きデータセットに存在しない未知のオブジェクトカテゴリを特定し、認識することを目的としている。
モデルは新しい3Dオブジェクトをローカライズし、それらのセマンティックなカテゴリを推論する必要があるため、この課題は難しい。
本稿では,3Dシーンのキャプションを生成するために,画像テキストペアからの広範な知識を符号化する,事前学習型視覚言語基盤モデルを提案する。
論文 参考訳(メタデータ) (2023-08-01T07:50:14Z) - Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation [44.58709274218105]
この研究は、蒸留された特徴場を利用して2次元基礎モデルのリッチなセマンティクスと正確な3次元幾何学を組み合わせることにより、ロボット操作のための2次元から3次元のギャップを橋渡しする。
そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショットの学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-27T17:59:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。