論文の概要: SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features
- arxiv url: http://arxiv.org/abs/2509.16098v1
- Date: Fri, 19 Sep 2025 15:41:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.233975
- Title: SegDINO3D: 3D Instance Segmentation Empowered by Both Image-Level and Object-Level 2D Features
- Title(参考訳): SegDINO3D:イメージレベルとオブジェクトレベルの両方の機能を活用した3Dインスタンスセグメンテーション
- Authors: Jinyuan Qu, Hongyang Li, Xingyu Chen, Shilong Liu, Yukai Shi, Tianhe Ren, Ruitao Jing, Lei Zhang,
- Abstract要約: SegDINO3Dは、3Dインスタンスセグメンテーションのためのトランスフォーマーエンコーダデコーダフレームワークである。
画像レベルとオブジェクトレベルの両方の機能を含む、事前訓練された2D検出モデルから2D表現を完全に活用する。
SegDINO3Dは、ScanNetV2とScanNet200インスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 61.13570953713554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present SegDINO3D, a novel Transformer encoder-decoder framework for 3D instance segmentation. As 3D training data is generally not as sufficient as 2D training images, SegDINO3D is designed to fully leverage 2D representation from a pre-trained 2D detection model, including both image-level and object-level features, for improving 3D representation. SegDINO3D takes both a point cloud and its associated 2D images as input. In the encoder stage, it first enriches each 3D point by retrieving 2D image features from its corresponding image views and then leverages a 3D encoder for 3D context fusion. In the decoder stage, it formulates 3D object queries as 3D anchor boxes and performs cross-attention from 3D queries to 2D object queries obtained from 2D images using the 2D detection model. These 2D object queries serve as a compact object-level representation of 2D images, effectively avoiding the challenge of keeping thousands of image feature maps in the memory while faithfully preserving the knowledge of the pre-trained 2D model. The introducing of 3D box queries also enables the model to modulate cross-attention using the predicted boxes for more precise querying. SegDINO3D achieves the state-of-the-art performance on the ScanNetV2 and ScanNet200 3D instance segmentation benchmarks. Notably, on the challenging ScanNet200 dataset, SegDINO3D significantly outperforms prior methods by +8.7 and +6.8 mAP on the validation and hidden test sets, respectively, demonstrating its superiority.
- Abstract(参考訳): 本稿では,3次元インスタンスセグメンテーションのためのトランスフォーマーエンコーダデコーダフレームワークであるSegDINO3Dを提案する。
3Dトレーニングデータは一般的に2Dトレーニング画像ほど不十分であるため、SegDINO3Dは3D表現を改善するために、画像レベルとオブジェクトレベルの両方の機能を含む事前訓練された2D検出モデルから2D表現を完全に活用するように設計されている。
SegDINO3Dはポイントクラウドと関連する2Dイメージの両方を入力として取り込む。
エンコーダの段階では、まず対応する画像ビューから2D画像の特徴を抽出し、3Dコンテキスト融合のために3Dエンコーダを利用する。
デコーダ段階では、3Dオブジェクトクエリを3Dアンカーボックスとして定式化し、2D検出モデルを用いて2D画像から得られた2Dオブジェクトクエリに3Dクエリからクロスアテンションを実行する。
これらの2Dオブジェクトクエリは、2D画像のコンパクトなオブジェクトレベル表現として機能し、事前訓練された2Dモデルの知識を忠実に保存しながら、数千の画像特徴マップをメモリに保持するという課題を効果的に回避する。
3Dボックスクエリの導入により、予測ボックスを使用したクロスアテンションの修正が可能になり、より正確なクエリが可能になる。
SegDINO3Dは、ScanNetV2とScanNet200インスタンスセグメンテーションベンチマークで最先端のパフォーマンスを達成する。
特に、挑戦的なScanNet200データセットでは、SegDINO3Dはバリデーションと隠れテストセットにおいて、それぞれ+8.7と+6.8mAPの先行メソッドよりも優れており、その優位性を示している。
関連論文リスト
- DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - ODIN: A Single Model for 2D and 3D Segmentation [34.612953668151036]
ODINは、2D RGBイメージと3Dポイントクラウドのセグメンテーションとラベル付けを行うモデルである。
ScanNet200、Matterport3D、AI2THOR 3Dセグメンテーションベンチマーク上での最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-01-04T18:59:25Z) - Multi-View Representation is What You Need for Point-Cloud Pre-Training [22.55455166875263]
本稿では,事前学習した2次元ネットワークを利用して3次元表現を学習するポイントクラウド事前学習手法を提案する。
我々は,新しい2次元知識伝達損失の助けを借りて,3次元特徴抽出ネットワークを訓練する。
実験結果から,事前学習したモデルを様々な下流タスクに転送できることが判明した。
論文 参考訳(メタデータ) (2023-06-05T03:14:54Z) - FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection [78.00922683083776]
一般的な2D検出器をこの3Dタスクで動作させることは簡単ではない。
本報告では,完全畳み込み型単段検出器を用いた手法を用いてこの問題を考察する。
私たちのソリューションは、NeurIPS 2020のnuScenes 3D検出チャレンジのすべてのビジョンのみの方法の中で1位を獲得します。
論文 参考訳(メタデータ) (2021-04-22T09:35:35Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。