Fugu-MT 論文翻訳(概要): OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation

論文の概要: OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation

arxiv url: http://arxiv.org/abs/2309.00616v1
Date: Fri, 1 Sep 2023 17:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-04 12:42:15.113710
Title: OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation
Title（参考訳）: openins3d: 3d open-vocabulary instance segmentationのスナップとルックアップ
Authors: Zhening Huang, Xiaoyang Wu, Xi Chen, Hengshuang Zhao, Lei Zhu, Joan Lasenby
Abstract要約: 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元イメージを主に利用している。 2次元画像入力を必要としないOpenIns3Dを導入し、インスタンスレベルでの3次元オープン語彙シーン理解を実現する。この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、さまざまな屋内および屋外データセットに対して最先端の結果を得た。
参考スコア（独自算出の注目度）: 34.44606500900042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current 3D open-vocabulary scene understanding methods mostly utilize well-aligned 2D images as the bridge to learn 3D features with language. However, applying these approaches becomes challenging in scenarios where 2D images are absent. In this work, we introduce a completely new pipeline, namely, OpenIns3D, which requires no 2D image inputs, for 3D open-vocabulary scene understanding at the instance level. The OpenIns3D framework employs a "Mask-Snap-Lookup" scheme. The "Mask" module learns class-agnostic mask proposals in 3D point clouds. The "Snap" module generates synthetic scene-level images at multiple scales and leverages 2D vision language models to extract interesting objects. The "Lookup" module searches through the outcomes of "Snap" with the help of Mask2Pixel maps, which contain the precise correspondence between 3D masks and synthetic images, to assign category names to the proposed masks. This 2D input-free, easy-to-train, and flexible approach achieved state-of-the-art results on a wide range of indoor and outdoor datasets with a large margin. Furthermore, OpenIns3D allows for effortless switching of 2D detectors without re-training. When integrated with state-of-the-art 2D open-world models such as ODISE and GroundingDINO, superb results are observed on open-vocabulary instance segmentation. When integrated with LLM-powered 2D models like LISA, it demonstrates a remarkable capacity to process highly complex text queries, including those that require intricate reasoning and world knowledge. The code and model will be made publicly available.
Abstract（参考訳）: 現在の3次元オープンボキャブラリシーン理解手法は,3次元特徴を言語で学習するためのブリッジとして,よく整列した2次元画像を利用する。しかし,2次元画像が欠落するシナリオでは,これらの手法の適用が困難になる。本研究では,2次元画像入力を必要としないOpenIns3Dという全く新しいパイプラインを導入し,インスタンスレベルでの3次元オープン語彙シーン理解を実現する。 OpenIns3Dフレームワークは"Mask-Snap-Lookup"スキームを採用している。 mask"モジュールは、クラスに依存しないマスク提案を3dポイントクラウドで学習する。 Snap"モジュールは複数のスケールで合成シーンレベルの画像を生成し、2次元視覚言語モデルを利用して興味深いオブジェクトを抽出する。ルックアップ」モジュールは、3dマスクと合成画像の正確な対応を含む「マスク2ピクセルマップ」の助けを借りて「スナップ」の結果を検索し、提案されたマスクにカテゴリ名を割り当てる。この2Dインプットフリーで、訓練が容易で柔軟なアプローチは、広い範囲の屋内および屋外のデータセットに対して最先端の結果を得た。さらにOpenIns3Dは、2D検出器を再訓練せずに簡単に切り替えることができる。 ODISE や GroundingDINO のような最先端の2次元オープンワールドモデルと統合すると、オープンボキャブラリのインスタンスセグメンテーションにおいてスーパーブな結果が観察される。 LLMで動くLISAのような2Dモデルと統合すると、複雑な推論や世界的知識を必要とするものを含む、非常に複雑なテキストクエリを処理する能力を示す。コードとモデルは公開される予定だ。

関連論文リスト

Retrieving Objects from 3D Scenes with Box-Guided Open-Vocabulary Instance Segmentation [36.41046448860009]
本稿では,2次元オープン語彙検出器でガイドされたRGB画像から,新しいオブジェクトの3Dインスタンスマスクを生成する手法を提案する。提案手法は, 効率的な分類を維持しつつ, 新規な物体を認識できる2次元検出器の能力を継承し, 高速かつ正確なレア・インスタンスの検索を可能にする。
論文参考訳（メタデータ） (2025-12-22T06:57:42Z)
Zoo3D: Zero-Shot 3D Object Detection at Scene Level [7.756226313216256]
Zoo3Dは、最初のトレーニング不要な3Dオブジェクト検出フレームワークである。本手法は,2次元マスクのグラフクラスタリングにより3次元境界ボックスを構成する。 Zoo3Dをポイントクラウドを越えて拡張して,ポーズやアンポーズの画像を直接処理します。
論文参考訳（メタデータ） (2025-11-25T12:29:06Z)
GALA: Guided Attention with Language Alignment for Open Vocabulary Gaussian Splatting [74.56128224977279]
GALAは3次元ガウススプラッティングを用いたオープンな3次元シーン理解のための新しいフレームワークである(3DGS)。 GALAは、自己教師付きコントラスト学習を通じてシーン固有の3Dインスタンス特徴フィールドを蒸留する。シームレスな2Dおよび3Dオープン語彙クエリをサポートし、ガウス単位の高次元特徴学習を回避してメモリ消費を削減する。
論文参考訳（メタデータ） (2025-08-19T21:26:49Z)
3D-MOOD: Lifting 2D to 3D for Monocular Open-Set Object Detection [58.78881632019072]
最初のエンドツーエンド3Dモノクロオープンセットオブジェクト検出器(3D-MOOD)を紹介する。私たちはオープンセットの2D検出を設計した3Dバウンディングボックスヘッドを通して3D空間に持ち上げます。対象クエリを事前に幾何学的に条件付けし,様々な場面で3次元推定の一般化を克服する。
論文参考訳（メタデータ） (2025-07-31T13:56:41Z)
DCSEG: Decoupled 3D Open-Set Segmentation using Gaussian Splatting [0.0]
本稿では,新しい3次元表現へのモジュラリティと適応性を確保するために,分離した3次元分割パイプラインを提案する。我々は、合成および実世界の屋内データセットを評価し、同等のNeRFパイプラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-12-14T21:26:44Z)
XMask3D: Cross-modal Mask Reasoning for Open Vocabulary 3D Semantic Segmentation [72.12250272218792]
本稿では,3次元特徴量と2次元テキスト埋め込み空間とのより精巧なマスクレベルのアライメントを,クロスモーダルマスク推論フレームワークであるXMask3Dを用いて提案する。我々は、3Dグローバルな特徴を暗黙の条件として、事前訓練された2D denoising UNetに統合し、セグメンテーションマスクの生成を可能にする。生成した2Dマスクを用いて、マスクレベルの3D表現を視覚言語の特徴空間と整合させ、3D幾何埋め込みの開語彙能力を増大させる。
論文参考訳（メタデータ） (2024-11-20T12:02:12Z)
OpenSU3D: Open World 3D Scene Understanding using Foundation Models [2.1262749936758216]
オープンセット, インスタンスレベルの3次元シーン表現を構築するための, 新規でスケーラブルなアプローチを提案する。既存の方法は、事前に構築された3Dシーンと、ポイント単位の機能ベクトル学習によるスケーラビリティの問題を必要とする。ゼロショット一般化機能を示すScanNetとReplicaのデータセットから,複数のシーンに対する提案手法の評価を行った。
論文参考訳（メタデータ） (2024-07-19T13:01:12Z)
Open-YOLO 3D: Towards Fast and Accurate Open-Vocabulary 3D Instance Segmentation [91.40798599544136]
高速かつ高精度なオープン語彙型3Dインスタンスセグメンテーション手法Open-YOLO 3Dを提案する。オープンな3Dインスタンスセグメンテーションのために、マルチビューRGB画像からの2Dオブジェクト検出のみを効果的に活用する。テキストプロンプトと3Dマスクとのマッチング性能は、2Dオブジェクト検出器でより高速に実現できることを実証的に見出した。
論文参考訳（メタデータ） (2024-06-04T17:59:31Z)
OpenGaussian: Towards Point-Level 3D Gaussian-based Open Vocabulary Understanding [54.981605111365056]
本稿では,3次元点レベルの開語彙理解が可能な3次元ガウススティング(3DGS)に基づくOpenGaussianを紹介する。我々の主な動機は、既存の3DGSベースのオープン語彙法が主に2Dピクセルレベルの解析に焦点を当てていることに起因している。
論文参考訳（メタデータ） (2024-06-04T07:42:33Z)
Open-Vocabulary SAM3D: Towards Training-free Open-Vocabulary 3D Scene Understanding [41.96929575241655]
OV-SAM3Dはオープンな3Dシーンを理解するための訓練不要な手法である。このフレームワークは、シーンの事前の知識を必要とせずに、任意の3Dシーンの理解タスクを実行するように設計されている。 ScanNet200 と nuScenes のデータセットに対する実証的な評価は、我々のアプローチが未知のオープンワールド環境における既存のオープンボキャブラリ手法を上回ることを示している。
論文参考訳（メタデータ） (2024-05-24T14:07:57Z)
POP-3D: Open-Vocabulary 3D Occupancy Prediction from Images [32.33170182669095]
入力された2次元画像からオープンな3次元セマンティックなボクセル占有マップを推定する手法について述べる。アーキテクチャは、2D-3Dエンコーダと、占有率予測と3D言語ヘッドで構成されている。出力は3次元接地言語埋め込みの密度の高いボクセルマップであり、様々なオープン語彙タスクを可能にする。
論文参考訳（メタデータ） (2024-01-17T18:51:53Z)
OpenMask3D: Open-Vocabulary 3D Instance Segmentation [84.58747201179654]
OpenMask3Dはオープンな3Dインスタンスセグメンテーションのためのゼロショットアプローチである。私たちのモデルは、CLIPベースの画像埋め込みのマルチビュー融合により、マスクごとの特徴を集約する。
論文参考訳（メタデータ） (2023-06-23T17:36:44Z)
Segment Anything in 3D with Radiance Fields [83.14130158502493]
本稿では,Segment Anything Model (SAM) を一般化して3次元オブジェクトをセグメント化する。提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。
論文参考訳（メタデータ） (2023-04-24T17:57:15Z)
OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文参考訳（メタデータ） (2022-11-28T18:58:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。