論文の概要: OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation
- arxiv url: http://arxiv.org/abs/2309.00616v1
- Date: Fri, 1 Sep 2023 17:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-04 12:42:15.113710
- Title: OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation
- Title(参考訳): openins3d: 3d open-vocabulary instance segmentationのスナップとルックアップ
- Authors: Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan
Lasenby
- Abstract要約: 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元イメージを主に利用している。
2次元画像入力を必要としないOpenIns3Dを導入し、インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、さまざまな屋内および屋外データセットに対して最先端の結果を得た。
- 参考スコア(独自算出の注目度): 34.44606500900042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current 3D open-vocabulary scene understanding methods mostly utilize
well-aligned 2D images as the bridge to learn 3D features with language.
However, applying these approaches becomes challenging in scenarios where 2D
images are absent. In this work, we introduce a completely new pipeline,
namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary
scene understanding at the instance level. The OpenIns3D framework employs a
"Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask
proposals in 3D point clouds. The "Snap" module generates synthetic scene-level
images at multiple scales and leverages 2D vision language models to extract
interesting objects. The "Lookup" module searches through the outcomes of
"Snap" with the help of Mask2Pixel maps, which contain the precise
correspondence between 3D masks and synthetic images, to assign category names
to the proposed masks. This 2D input-free, easy-to-train, and flexible approach
achieved state-of-the-art results on a wide range of indoor and outdoor
datasets with a large margin. Furthermore, OpenIns3D allows for effortless
switching of 2D detectors without re-training. When integrated with
state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb
results are observed on open-vocabulary instance segmentation. When integrated
with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to
process highly complex text queries, including those that require intricate
reasoning and world knowledge. The code and model will be made publicly
available.
- Abstract(参考訳): 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元画像を利用する。
しかし,2次元画像が欠落するシナリオでは,これらの手法の適用が困難になる。
本研究では,2次元画像入力を必要としないOpenIns3Dという全く新しいパイプラインを導入し,インスタンスレベルでの3次元オープン語彙シーン理解を実現する。
OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。
mask"モジュールは、クラスに依存しないマスク提案を3dポイントクラウドで学習する。
Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2次元視覚言語モデルを利用して興味深いオブジェクトを抽出する。
ルックアップ」モジュールは、3dマスクと合成画像の正確な対応を含む「マスク2ピクセルマップ」の助けを借りて「スナップ」の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。
この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、広い範囲の屋内および屋外のデータセットに対して最先端の結果を得た。
さらにOpenIns3Dは、2D検出器を再訓練せずに簡単に切り替えることができる。
ODISE や GroundingDINO のような最先端の2次元オープンワールドモデルと統合すると、オープンボキャブラリのインスタンスセグメンテーションにおいてスーパーブな結果が観察される。
LLMで動くLISAのような2Dモデルと統合すると、複雑な推論や世界的知識を必要とするものを含む、非常に複雑なテキストクエリを処理する能力を示す。
コードとモデルは公開される予定だ。
関連論文リスト
- POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。
アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。
出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文 参考訳(メタデータ) (2024-01-17T18:51:53Z) - MaskClustering: View Consensus based Mask Graph Clustering for Open-Vocabulary 3D Instance Segmentation [11.123421412837336]
オープン語彙の3Dインスタンスセグメンテーションは、事前に定義されたカテゴリなしで3Dインスタンスをセグメンテーションできる能力のために最先端である。
最近の研究はまず2Dモデルを通して2Dオープンボキャブラリマスクを生成し、2つの隣接するフレーム間で計算されたメトリクスに基づいてそれらを3Dインスタンスにマージする。
本稿では,多視点観測の利用率を高めるために,新しい基準であるビューコンセンサス率を提案する。
論文 参考訳(メタデータ) (2024-01-15T14:56:15Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z) - Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。
提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。
実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文 参考訳(メタデータ) (2023-04-24T17:57:15Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。