論文の概要: 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language
Distillation
- arxiv url: http://arxiv.org/abs/2401.02402v1
- Date: Thu, 4 Jan 2024 18:39:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:20:47.591135
- Title: 3D Open-Vocabulary Panoptic Segmentation with 2D-3D Vision-Language
Distillation
- Title(参考訳): 2d-3d視覚言語蒸留による3dオープンボカブラリーパンオプティクセグメンテーション
- Authors: Zihao Xiao, Longlong Jing, Shangxuan Wu, Alex Zihao Zhu, Jingwei Ji,
Chiyu Max Jiang, Wei-Chih Hung, Thomas Funkhouser, Weicheng Kuo, Anelia
Angelova, Yin Zhou, Shiwei Sheng
- Abstract要約: 本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
我々のモデルは、学習可能なLiDAR機能と密集した凍結視覚CLIP機能との融合を利用する。
本稿では,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失の2つの新しい損失関数を提案する。
- 参考スコア(独自算出の注目度): 41.581211059105755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D panoptic segmentation is a challenging perception task, which aims to
predict both semantic and instance annotations for 3D points in a scene.
Although prior 3D panoptic segmentation approaches have achieved great
performance on closed-set benchmarks, generalizing to novel categories remains
an open problem. For unseen object categories, 2D open-vocabulary segmentation
has achieved promising results that solely rely on frozen CLIP backbones and
ensembling multiple classification outputs. However, we find that simply
extending these 2D models to 3D does not achieve good performance due to poor
per-mask classification quality on novel categories. In this paper, we propose
the first method to tackle 3D open-vocabulary panoptic segmentation. Our model
takes advantage of the fusion between learnable LiDAR features and dense frozen
vision CLIP features, using a single classification head to make predictions
for both base and novel classes. To further improve the classification
performance on novel classes and leverage the CLIP model, we propose two novel
loss functions: object-level distillation loss and voxel-level distillation
loss. Our experiments on the nuScenes and SemanticKITTI datasets show that our
method outperforms strong baselines by a large margin.
- Abstract(参考訳): 3d panoptic segmentationは、シーン内の3dポイントのセマンティックアノテーションとインスタンスアノテーションの両方を予測することを目的とした、難しい知覚タスクである。
従来の3dパンオプティカルセグメンテーションアプローチはクローズドセットベンチマークで優れた性能を達成しているが、新しいカテゴリへの一般化は未解決の問題である。
未確認のオブジェクトカテゴリでは、2Dオープンボキャブラリセグメンテーションは、凍結したCLIPバックボーンにのみ依存し、複数の分類出力をアンサンブルする有望な結果を達成した。
しかし,これらの2dモデルを3dに拡張するだけでは,マスクごとの分類品質の低さから良好な性能が得られないことがわかった。
本稿では,3次元オープンボキャブラリパノプタセグメンテーションのための最初の手法を提案する。
本モデルは,学習可能なLiDAR特徴と高密度凍結視覚CLIP特徴との融合を利用して,ベースクラスと新規クラスの両方の予測を行う。
新規クラスの分類性能をさらに向上し,クリップモデルを活用するために,オブジェクトレベルの蒸留損失とボクセルレベルの蒸留損失という2つの新たな損失関数を提案する。
nuScenes と SemanticKITTI のデータセットを用いた実験により,本手法が強いベースラインをはるかに上回ることを示す。
関連論文リスト
- Segment Any 3D Object with Language [58.471327490684295]
本稿では,Segment any 3D Object with LanguagE (SOLE)を紹介した。
具体的には、バックボーンとデコーダの両方にマルチモーダル意味を組み込むマルチモーダル融合ネットワークを提案する。
我々のSOLEは、ScanNetv2、ScanNet200、Replicaベンチマークにおいて、従来の方法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-02T17:59:10Z) - Transferring CLIP's Knowledge into Zero-Shot Point Cloud Semantic
Segmentation [17.914290294935427]
従来の3Dセグメンテーション手法では、トレーニングセットに現れる一定の範囲のクラスしか認識できない。
CLIPのような大規模ビジュアル言語事前訓練モデルでは、ゼロショット2Dビジョンタスクにおいて、その一般化能力を示している。
本稿では,CLIPが入力する視覚言語知識をクラウドエンコーダに転送するための,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2023-12-12T12:35:59Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - Robust 3D-aware Object Classification via Discriminative
Render-and-Compare [18.355998449169576]
本稿では,最近の研究を基盤として,単一タスクモデルに比較可能な3次元認識型分類アーキテクチャを提案する。
提案手法とフィードフォワードニューラルネットワークを組み合わせることで,レンダリング・アンド・コンパレートアプローチを大規模カテゴリに拡張する方法について述べる。
論文 参考訳(メタデータ) (2023-05-24T03:20:09Z) - Weakly Supervised 3D Open-vocabulary Segmentation [104.07740741126119]
学習済み基礎モデルCLIPとDINOを弱教師付きで活用することで,3次元オープン語彙セグメンテーションの課題に取り組む。
我々はCLIPとDINOのオープン語彙多様知識とオブジェクト推論能力をニューラルラディアンス場(NeRF)に蒸留する。
提案手法の特筆すべき点は,基礎モデルや蒸留プロセスに手動セグメンテーションアノテーションを必要としない点である。
論文 参考訳(メタデータ) (2023-05-23T14:16:49Z) - PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained
Image-Language Models [56.324516906160234]
一般化可能な3D部分分割は重要だが、ビジョンとロボティクスでは難しい。
本稿では,事前学習した画像言語モデルGLIPを利用して,3次元点雲の低ショット部分分割法を提案する。
我々は2Dから3Dへの豊富な知識を、ポイントクラウドレンダリングにおけるGLIPに基づく部分検出と新しい2D-to-3Dラベルリフトアルゴリズムにより転送する。
論文 参考訳(メタデータ) (2022-12-03T06:59:01Z) - ICM-3D: Instantiated Category Modeling for 3D Instance Segmentation [19.575077449759377]
Instaniated categorization を用いて3Dインスタンスを分割するシングルステップ手法 ICM-3D を提案する。
我々は、ICM-3Dの有効性を検証するための広範な実験を行い、複数のフレームワーク、バックボーン、ベンチマークにまたがるインスピレーションされた性能が得られることを示す。
論文 参考訳(メタデータ) (2021-08-26T13:08:37Z) - Seismic Fault Segmentation via 3D-CNN Training by a Few 2D Slices Labels [6.963867115353744]
我々は3次元地震データから2次元スライスをサンプリングし,新しい2次元クロスエントロピーと滑らかなL1損失を3D-CNNの訓練に適用する。
実験により,実データから2次元スライスラベルから3次元地震特性を抽出し,断層容積を分割できることを示した。
論文 参考訳(メタデータ) (2021-05-09T07:13:40Z) - Fine-Grained 3D Shape Classification with Hierarchical Part-View
Attentions [70.0171362989609]
本稿では,FG3D-Netと呼ばれる新しい3次元形状分類手法を提案する。
詳細な3次元形状データセットに基づく結果から,本手法が他の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-05-26T06:53:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。