論文の概要: SAM-Guided Masked Token Prediction for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2410.12158v2
- Date: Thu, 17 Oct 2024 07:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:19:53.620293
- Title: SAM-Guided Masked Token Prediction for 3D Scene Understanding
- Title(参考訳): 3次元シーン理解のためのSAM誘導型マスケトウケ予測
- Authors: Zhimin Chen, Liang Yang, Yingwei Li, Longlong Jing, Bing Li,
- Abstract要約: ファンデーションモデルは2Dタスクのパフォーマンスを大幅に向上させており、Bridge3Dのような最近の研究はこれらのモデルを用いて3Dシーン理解を改善している。
しかし、3次元データセットにおける2次元と3次元の表現の不一致や長期分布といった課題は、知識蒸留の有効性を制限している。
本稿では,3次元変圧器構造と地域レベルの知識蒸留をシームレスに整合させる新しいSAM誘導トークン化手法を提案する。
- 参考スコア(独自算出の注目度): 20.257222696422215
- License:
- Abstract: Foundation models have significantly enhanced 2D task performance, and recent works like Bridge3D have successfully applied these models to improve 3D scene understanding through knowledge distillation, marking considerable advancements. Nonetheless, challenges such as the misalignment between 2D and 3D representations and the persistent long-tail distribution in 3D datasets still restrict the effectiveness of knowledge distillation from 2D to 3D using foundation models. To tackle these issues, we introduce a novel SAM-guided tokenization method that seamlessly aligns 3D transformer structures with region-level knowledge distillation, replacing the traditional KNN-based tokenization techniques. Additionally, we implement a group-balanced re-weighting strategy to effectively address the long-tail problem in knowledge distillation. Furthermore, inspired by the recent success of masked feature prediction, our framework incorporates a two-stage masked token prediction process in which the student model predicts both the global embeddings and the token-wise local embeddings derived from the teacher models trained in the first stage. Our methodology has been validated across multiple datasets, including SUN RGB-D, ScanNet, and S3DIS, for tasks like 3D object detection and semantic segmentation. The results demonstrate significant improvements over current State-of-the-art self-supervised methods, establishing new benchmarks in this field.
- Abstract(参考訳): 基礎モデルは2次元タスク性能を著しく向上させており、Bridge3Dのような最近の研究は知識蒸留による3次元シーン理解の改善に成功し、かなりの進歩を見せている。
しかし、3次元データセットにおける2次元表現と3次元表現の相違や長期分布の持続といった課題は、基礎モデルを用いた2次元から3次元への知識蒸留の有効性を制限している。
これらの課題に対処するために,従来のKNNベースのトークン化技術に代わる,3次元トランスフォーマー構造と地域レベルの知識蒸留をシームレスに整合するSAM誘導トークン化手法を提案する。
さらに, グループ均衡型再重み付け手法を導入し, 知識蒸留における長い尾の問題に効果的に対処する。
さらに,近年の仮面特徴予測の成功に触発されて,第1段階で訓練された教師モデルから得られたグローバル埋め込みとトークン単位の局所埋め込みの両方を,学生モデルが予測する2段階の仮面トークン予測プロセスが組み込まれている。
提案手法は,SUN RGB-D, ScanNet, S3DISなどの複数のデータセットで, 3次元オブジェクト検出やセマンティックセグメンテーションなどのタスクに対して検証されている。
その結果、現在の最先端の自己管理手法よりも大幅に改善され、この分野に新たなベンチマークが確立された。
関連論文リスト
- Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with
Pre-trained Vision-Language Models [62.663113296987085]
クラス増分学習(class-incremental learning)は、モデルが限られたデータに基づいて漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
冗長特徴除去器(RFE)と空間ノイズ補償器(SNC)の2つの新しいコンポーネントを紹介する。
既存の3次元データセットの不均衡を考慮し、3次元FSCILモデルのより微妙な評価を提供する新しい評価指標を提案する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - Leveraging Large-Scale Pretrained Vision Foundation Models for
Label-Efficient 3D Point Cloud Segmentation [67.07112533415116]
本稿では3Dポイントクラウドセグメンテーションタスクに様々な基礎モデルを適用する新しいフレームワークを提案する。
我々のアプローチでは、異なる大きな視覚モデルを用いて2次元セマンティックマスクの初期予測を行う。
本研究では,ロバストな3Dセマンティックな擬似ラベルを生成するために,投票による全ての結果を効果的に組み合わせたセマンティックなラベル融合戦略を提案する。
論文 参考訳(メタデータ) (2023-11-03T15:41:15Z) - 3D Point Cloud Pre-training with Knowledge Distillation from 2D Images [128.40422211090078]
本稿では,2次元表現学習モデルから直接知識を取得するために,3次元ポイントクラウド事前学習モデルの知識蒸留手法を提案する。
具体的には、3Dポイントクラウドから概念特徴を抽出し、2D画像からの意味情報と比較するクロスアテンション機構を提案する。
このスキームでは,2次元教師モデルに含まれるリッチな情報から,クラウド事前学習モデルを直接学習する。
論文 参考訳(メタデータ) (2022-12-17T23:21:04Z) - SSMTL++: Revisiting Self-Supervised Multi-Task Learning for Video
Anomaly Detection [108.57862846523858]
自己教師型マルチタスク学習フレームワークを再考し、元の手法にいくつかのアップデートを提案する。
マルチヘッド・セルフアテンション・モジュールを導入することで3次元畳み込みバックボーンを近代化する。
モデルをさらに改良するために,セグメントマップの予測などの自己指導型学習タスクについて検討した。
論文 参考訳(メタデータ) (2022-07-16T19:25:41Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。