論文の概要: OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2309.00616v2
- Date: Mon, 4 Sep 2023 17:59:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 11:49:50.774096
- Title: OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation
- Title(参考訳): openins3d: 3d open-vocabulary instance segmentationのスナップとルックアップ
- Authors: Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan
Lasenby
- Abstract要約: 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元イメージを主に利用している。
2次元画像入力を必要としないOpenIns3Dを導入し、インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、さまざまな屋内および屋外データセットに対して最先端の結果を得た。
- 参考スコア(独自算出の注目度): 34.44606500900042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current 3D open-vocabulary scene understanding methods mostly utilize
well-aligned 2D images as the bridge to learn 3D features with language.
However, applying these approaches becomes challenging in scenarios where 2D
images are absent. In this work, we introduce a completely new pipeline,
namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary
scene understanding at the instance level. The OpenIns3D framework employs a
"Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask
proposals in 3D point clouds. The "Snap" module generates synthetic scene-level
images at multiple scales and leverages 2D vision language models to extract
interesting objects. The "Lookup" module searches through the outcomes of
"Snap" with the help of Mask2Pixel maps, which contain the precise
correspondence between 3D masks and synthetic images, to assign category names
to the proposed masks. This 2D input-free, easy-to-train, and flexible approach
achieved state-of-the-art results on a wide range of indoor and outdoor
datasets with a large margin. Furthermore, OpenIns3D allows for effortless
switching of 2D detectors without re-training. When integrated with
state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb
results are observed on open-vocabulary instance segmentation. When integrated
with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to
process highly complex text queries, including those that require intricate
reasoning and world knowledge. Project page:
https://zheninghuang.github.io/OpenIns3D/
- Abstract(参考訳): 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元画像を利用する。
しかし,2次元画像が欠落するシナリオでは,これらの手法の適用が困難になる。
本研究では,2次元画像入力を必要としないOpenIns3Dという全く新しいパイプラインを導入し,インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。
mask"モジュールは、クラスに依存しないマスク提案を3dポイントクラウドで学習する。
Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2次元視覚言語モデルを利用して興味深いオブジェクトを抽出する。
ルックアップ」モジュールは、3dマスクと合成画像の正確な対応を含む「マスク2ピクセルマップ」の助けを借りて「スナップ」の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。
この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、広い範囲の屋内および屋外のデータセットに対して最先端の結果を得た。
さらにOpenIns3Dは、2D検出器を再訓練せずに簡単に切り替えることができる。
ODISE や GroundingDINO のような最先端の2次元オープンワールドモデルと統合すると、オープンボキャブラリのインスタンスセグメンテーションにおいてスーパーブな結果が観察される。
LLMで動くLISAのような2Dモデルと統合すると、複雑な推論や世界的知識を必要とするものを含む、非常に複雑なテキストクエリを処理する能力を示す。
プロジェクトページ: https://zheninghuang.github.io/OpenIns3D/
関連論文リスト
- XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。
我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。
生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文 参考訳(メタデータ) (2024-11-20T12:02:12Z) - OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。
既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。
ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文 参考訳(メタデータ) (2024-07-19T13:01:12Z) - Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。
オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。
テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-04T17:59:31Z) - OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。
我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文 参考訳(メタデータ) (2024-06-04T07:42:33Z) - Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding [41.96929575241655]
OV-SAM3Dはオープンな3Dシーンを理解するための訓練不要な手法である。
このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。
ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。
論文 参考訳(メタデータ) (2024-05-24T14:07:57Z) - POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。
私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文 参考訳(メタデータ) (2023-06-23T17:36:44Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。