論文の概要: SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation
- arxiv url: http://arxiv.org/abs/2602.06335v1
- Date: Fri, 06 Feb 2026 03:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.202063
- Title: SPDA-SAM: A Self-prompted Depth-Aware Segment Anything Model for Instance Segmentation
- Title(参考訳): SPDA-SAM:インスタンスセグメンテーションのための自己プロンプト深度認識セグメンテーションモデル
- Authors: Yihan Shang, Wei Wang, Chao Huang, Xinghui Dong,
- Abstract要約: 本稿では,SPDA-SAM(Self-prompted Depth-Aware SAM)を提案する。
具体的には,画像エンコーダとSAMのマスクデコーダから意味的および空間的プロンプトを抽出するセマンティック・空間自己プロンプトモジュール(SSSPM)を設計する。
また,単分子RGB画像から抽出した特徴と,そこから推定した深度マップを融合した粗大なRGB-D核融合モジュール(C2FFM)を導入する。
- 参考スコア(独自算出の注目度): 12.878470455789945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Segment Anything Model (SAM) has demonstrated strong generalizability in various instance segmentation tasks. However, its performance is severely dependent on the quality of manual prompts. In addition, the RGB images that instance segmentation methods normally use inherently lack depth information. As a result, the ability of these methods to perceive spatial structures and delineate object boundaries is hindered. To address these challenges, we propose a Self-prompted Depth-Aware SAM (SPDA-SAM) for instance segmentation. Specifically, we design a Semantic-Spatial Self-prompt Module (SSSPM) which extracts the semantic and spatial prompts from the image encoder and the mask decoder of SAM, respectively. Furthermore, we introduce a Coarse-to-Fine RGB-D Fusion Module (C2FFM), in which the features extracted from a monocular RGB image and the depth map estimated from it are fused. In particular, the structural information in the depth map is used to provide coarse-grained guidance to feature fusion, while local variations in depth are encoded in order to fuse fine-grained feature representations. To our knowledge, SAM has not been explored in such self-prompted and depth-aware manners. Experimental results demonstrate that our SPDA-SAM outperforms its state-of-the-art counterparts across twelve different data sets. These promising results should be due to the guidance of the self-prompts and the compensation for the spatial information loss by the coarse-to-fine RGB-D fusion operation.
- Abstract(参考訳): 近年、Segment Anything Model (SAM) は様々なインスタンスセグメンテーションタスクにおいて強力な一般化可能性を示している。
しかし、その性能は手動のプロンプトの品質に大きく依存している。
さらに、インスタンスセグメンテーション手法が通常使用するRGB画像は、本質的に深度情報を欠いている。
その結果,これらの手法が空間構造を知覚し,物体の境界を規定する能力は阻害される。
これらの課題に対処するため,事例分割のための自己プロンプトDepth-Aware SAM (SPDA-SAM)を提案する。
具体的には,画像エンコーダとSAMのマスクデコーダから意味的および空間的プロンプトを抽出するSemantic-Spatial Self-prompt Module (SSSPM)を設計する。
さらに,単分子RGB画像から抽出した特徴と,そこから推定した深度マップを融合した粗大なRGB-D核融合モジュール(C2FFM)を導入する。
特に、深度マップの構造情報は、微細な特徴表現を融合するために、局所的な深度変化を符号化すると共に、微細な特徴表現を融合するために、粗い粒度のガイダンスを提供するために使用される。
我々の知る限りでは、SAMはそのような自己宣伝的かつ奥行きを意識した方法では研究されていない。
実験の結果,SPDA-SAMは12種類のデータセットで最先端のデータセットよりも優れていた。
これらの有望な結果は、粗大なRGB-D融合操作による自己プロンプトの誘導と空間情報損失の補償によるものであるべきである。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Segment Any RGB-Thermal Model with Language-aided Distillation [17.837670087342456]
RGB-Tセマンティックセグメンテーションのための強力なSAMをカスタマイズする新しいフレームワークSARTMを提案する。
我々のキーとなるアイデアはSAMの可能性を解き放ちつつ、RGB-Tデータペアのセマンティック理解モジュールを導入することです。
定量的および定性的な結果は、提案したSARTMが最先端のアプローチを著しく上回っていることを一貫して示している。
論文 参考訳(メタデータ) (2025-05-04T00:24:17Z) - RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory [34.406308400305385]
RGB-D (RGB-D) Video Object (VOS) は、RGBのきめ細かいテクスチャ情報を奥行きの幾何学的手がかりと統合することを目的としている。
本稿では,ロバストセグメンテーションのためのマルチストア機能メモリを用いた新しいRGB-D VOSを提案する。
本稿では,最新のRGB-D VOSベンチマークにおいて,提案手法の最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-23T07:31:37Z) - PolSAM: Polarimetric Scattering Mechanism Informed Segment Anything Model [83.35198885088093]
PolSARデータは、そのリッチで複雑な特徴のために、ユニークな課題を提示する。
複素数値データ、偏光特性、振幅画像などの既存のデータ表現が広く使われている。
PolSARのほとんどの機能抽出ネットワークは小さく、機能を効果的にキャプチャする能力を制限している。
本稿では,ドメイン固有の散乱特性と新規なプロンプト生成戦略を統合したSegment Anything Model (SAM) であるPolarimetric Scattering Mechanism-Informed SAM (PolSAM)を提案する。
論文 参考訳(メタデータ) (2024-12-17T09:59:53Z) - SSFam: Scribble Supervised Salient Object Detection Family [13.369217449092524]
Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
論文 参考訳(メタデータ) (2024-09-07T13:07:59Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged Object Detection [22.027032083786242]
DSAMはSAMのゼロショット機能を利用して、RGB-Dドメインの正確なセグメンテーションを実現する。
Finer Moduleは、深度の観点から高度にキャモフラージュされたターゲットを正確にセグメンテーションする可能性を探っている。
論文 参考訳(メタデータ) (2024-07-17T06:31:29Z) - Depth-Guided Semi-Supervised Instance Segmentation [62.80063539262021]
Semi-Supervised Instance (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。
従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。
この制限を克服するために、Depth-Guided (DG)フレームワークを導入します。
論文 参考訳(メタデータ) (2024-06-25T09:36:50Z) - RSPrompter: Learning to Prompt for Remote Sensing Instance Segmentation
based on Visual Foundation Model [29.42043345787285]
本稿では,Segment Anything Model (SAM) のための適切なプロンプトの生成を学習する手法を提案する。
これによりSAMはリモートセンシング画像に対して意味的に識別可能なセグメンテーション結果を生成することができる。
また,SAMコミュニティ内での最近の進歩を図り,その性能をRSPrompterと比較する。
論文 参考訳(メタデータ) (2023-06-28T14:51:34Z) - SAD: Segment Any RGBD [54.24917975958583]
Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。
本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。