論文の概要: PlaneSAM: Multimodal Plane Instance Segmentation Using the Segment Anything Model
- arxiv url: http://arxiv.org/abs/2410.16545v1
- Date: Mon, 21 Oct 2024 22:16:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:28:56.157537
- Title: PlaneSAM: Multimodal Plane Instance Segmentation Using the Segment Anything Model
- Title(参考訳): PlaneSAM: Segment Anything Model を用いたマルチモーダルプレーンインスタンスセグメンテーション
- Authors: Zhongchen Deng, Zhechen Yang, Chi Chen, Cheng Zeng, Yan Meng, Bisheng Yang,
- Abstract要約: 我々は、RGBバンド(スペクトルバンド)とDバンド(幾何学バンド)の情報を完全に統合できるPlaneSAMと呼ばれる平面インスタンスセグメンテーションネットワークを提案する。
主により単純な分岐学習Dバンド機能と、より複雑な分岐学習RGBバンド機能を備えています。
実験の結果,提案したPlaneSAMはScanNetデータセット上で新たなSOTA性能を設定し,従来のSOTAアプローチよりも2D-3D-S, Matterport3D, ICL-NUIM RGB-Dデータセットでのゼロショット転送に優れていた。
- 参考スコア(独自算出の注目度): 10.492813866435462
- License:
- Abstract: Plane instance segmentation from RGB-D data is a crucial research topic for many downstream tasks. However, most existing deep-learning-based methods utilize only information within the RGB bands, neglecting the important role of the depth band in plane instance segmentation. Based on EfficientSAM, a fast version of SAM, we propose a plane instance segmentation network called PlaneSAM, which can fully integrate the information of the RGB bands (spectral bands) and the D band (geometric band), thereby improving the effectiveness of plane instance segmentation in a multimodal manner. Specifically, we use a dual-complexity backbone, with primarily the simpler branch learning D-band features and primarily the more complex branch learning RGB-band features. Consequently, the backbone can effectively learn D-band feature representations even when D-band training data is limited in scale, retain the powerful RGB-band feature representations of EfficientSAM, and allow the original backbone branch to be fine-tuned for the current task. To enhance the adaptability of our PlaneSAM to the RGB-D domain, we pretrain our dual-complexity backbone using the segment anything task on large-scale RGB-D data through a self-supervised pretraining strategy based on imperfect pseudo-labels. To support the segmentation of large planes, we optimize the loss function combination ratio of EfficientSAM. In addition, Faster R-CNN is used as a plane detector, and its predicted bounding boxes are fed into our dual-complexity network as prompts, thereby enabling fully automatic plane instance segmentation. Experimental results show that the proposed PlaneSAM sets a new SOTA performance on the ScanNet dataset, and outperforms previous SOTA approaches in zero-shot transfer on the 2D-3D-S, Matterport3D, and ICL-NUIM RGB-D datasets, while only incurring a 10% increase in computational overhead compared to EfficientSAM.
- Abstract(参考訳): RGB-Dデータからの平面インスタンスセグメンテーションは多くの下流タスクにとって重要な研究トピックである。
しかし、既存のディープラーニングベースの手法のほとんどはRGBバンド内の情報のみを利用しており、平面インスタンスセグメンテーションにおけるディープ・バンドの重要な役割を無視している。
SAMの高速バージョンであるEfficientSAMに基づいて、RGBバンド(スペクトルバンド)とDバンド(幾何学バンド)の情報を完全に統合し、平面インスタンスセグメンテーションの有効性をマルチモーダルに改善できるPlaneSAMという平面インスタンスセグメンテーションネットワークを提案する。
具体的には,より単純な分岐学習Dバンド機能と,より複雑な分岐学習RGBバンド機能を備えた二重複雑バックボーンを用いる。
これにより、Dバンドトレーニングデータが大規模に制限された場合でも、バックボーンはDバンド特徴表現を効果的に学習でき、EfficientSAMの強力なRGBバンド特徴表現を保持し、元のバックボーン分岐を現在のタスクに微調整することができる。
RGB-D領域へのPlaneSAMの適応性を高めるため、不完全な擬似ラベルに基づく自己教師型事前学習戦略により、大規模RGB-Dデータ上でのセグメントの任意のタスクを用いて、二重複雑なバックボーンを事前訓練する。
大型平面のセグメンテーションを支援するために,効率の良いSAMの損失関数の組み合わせ比を最適化する。
さらに、より高速なR-CNNを平面検出器として使用し、予測された境界ボックスを2重複雑ネットワークにプロンプトとして供給することにより、完全に自動的な平面インスタンスセグメンテーションを可能にする。
実験結果から,提案したPlaneSAMはScanNetデータセットに新たなSOTA性能を設定し,2D-3D-S, Matterport3D, ICL-NUIM RGB-Dデータセットのゼロショット転送において,従来のSOTAアプローチよりも優れた性能を示した。
関連論文リスト
- SAMRS: Scaling-up Remote Sensing Segmentation Dataset with Segment
Anything Model [85.85899655118087]
我々はSAMRSと呼ばれる大規模RSセグメンテーションデータセットを生成するための効率的なパイプラインを開発する。
SAMRSは完全に105,090の画像と1,668,241のインスタンスを持ち、既存の高解像度RSセグメンテーションデータセットを数桁上回っている。
論文 参考訳(メタデータ) (2023-05-03T10:58:07Z) - TANet: Transformer-based Asymmetric Network for RGB-D Salient Object
Detection [13.126051625000605]
RGB-D SOD法は主に対称な2ストリームCNNネットワークに依存し、RGBと深さチャネルの特徴を別々に抽出する。
本稿では,トランスフォーマーを用いた非対称ネットワーク(TANet)を提案する。
提案手法は、6つの公開データセット上での14の最先端RGB-D手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-07-04T03:06:59Z) - DFTR: Depth-supervised Hierarchical Feature Fusion Transformer for
Salient Object Detection [44.94166578314837]
我々は、純粋なトランスフォーマーベースのSODフレームワーク、すなわち、Depth-supervised Hierarchical Feature Fusion TRansformer (DFTR)を提案する。
我々は,提案したDFTRを10個のベンチマークデータセット上で広範囲に評価し,実験結果から,既存のRGBおよびRGB-D SODタスクにおいて,DFTRが従来手法よりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2022-03-12T12:59:12Z) - Feature-Supervised Action Modality Transfer [35.550525307238146]
本稿では,ビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定のラベル付き例のみに限定して行おうとする。
RGBや派生した光フローでは、多数の大規模ラベル付きデータセットが利用可能である。
論文 参考訳(メタデータ) (2021-08-06T22:59:10Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - A Unified Structure for Efficient RGB and RGB-D Salient Object Detection [15.715143016999695]
SODの両タスクを効率的に扱うために,CRACEモジュールを用いた統合構造を提案する。
提案したCRACEモジュールは2つ(RGB SOD)または3つ(RGB-D SOD)の入力を受信し、適切に融合する。
CRACEモジュールを備えた単純な統合機能ピラミッドネットワーク(FPN)のような構造は、サリエンシとバウンダリの多層監視の下で結果を伝達し、洗練する。
論文 参考訳(メタデータ) (2020-12-01T12:12:03Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z) - Bifurcated backbone strategy for RGB-D salient object detection [168.19708737906618]
我々は、RGB-Dの高次物体検出に固有のマルチモーダル・マルチレベルの性質を活用して、新しいカスケードリファインメントネットワークを考案する。
アーキテクチャは Bifurcated Backbone Strategy Network (BBS-Net) と呼ばれ、シンプルで効率的でバックボーンに依存しない。
論文 参考訳(メタデータ) (2020-07-06T13:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。