論文の概要: SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection
- arxiv url: http://arxiv.org/abs/2511.09870v1
- Date: Fri, 14 Nov 2025 01:14:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.538205
- Title: SAM-DAQ: Segment Anything Model with Depth-guided Adaptive Queries for RGB-D Video Salient Object Detection
- Title(参考訳): SAM-DAQ:RGB-Dビデオ・サレント・オブジェクト検出のための奥行き誘導型適応クエリを用いたセグメンテーションモデル
- Authors: Jia Lin, Xiaofei Zhou, Jiyuan Liu, Runmin Cong, Guodao Zhang, Zhi Liu, Jiyong Zhang,
- Abstract要約: 本稿では,Depth-Guided Adaptive Queries (SAM-DAQ) を用いた新しいセグメンテーションモデルを提案する。
SAM-DAQは、深度と時間的手がかりを統一されたフレームワークにシームレスに統合することにより、SAM2をビデオから鮮やかなオブジェクトに適応させる。
実験は3つのRGB-D VSODデータセットを用いて行われ、提案したSAM-DAQは、すべての評価指標で常に最先端の手法より優れていることを示す。
- 参考スコア(独自算出の注目度): 44.480885765890925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently segment anything model (SAM) has attracted widespread concerns, and it is often treated as a vision foundation model for universal segmentation. Some researchers have attempted to directly apply the foundation model to the RGB-D video salient object detection (RGB-D VSOD) task, which often encounters three challenges, including the dependence on manual prompts, the high memory consumption of sequential adapters, and the computational burden of memory attention. To address the limitations, we propose a novel method, namely Segment Anything Model with Depth-guided Adaptive Queries (SAM-DAQ), which adapts SAM2 to pop-out salient objects from videos by seamlessly integrating depth and temporal cues within a unified framework. Firstly, we deploy a parallel adapter-based multi-modal image encoder (PAMIE), which incorporates several depth-guided parallel adapters (DPAs) in a skip-connection way. Remarkably, we fine-tune the frozen SAM encoder under prompt-free conditions, where the DPA utilizes depth cues to facilitate the fusion of multi-modal features. Secondly, we deploy a query-driven temporal memory (QTM) module, which unifies the memory bank and prompt embeddings into a learnable pipeline. Concretely, by leveraging both frame-level queries and video-level queries simultaneously, the QTM module can not only selectively extract temporal consistency features but also iteratively update the temporal representations of the queries. Extensive experiments are conducted on three RGB-D VSOD datasets, and the results show that the proposed SAM-DAQ consistently outperforms state-of-the-art methods in terms of all evaluation metrics.
- Abstract(参考訳): 近年,セグメンテーションモデル (SAM) は広く関心を集めており,ユニバーサルセグメンテーションのビジョン基盤モデルとして扱われることが多い。
一部の研究者は、RGB-Dビデオサルエントオブジェクト検出(RGB-D VSOD)タスクに基礎モデルを直接適用しようと試みており、手動プロンプトへの依存、シーケンシャルアダプタの高メモリ消費、メモリアテンションの計算的負担などの3つの課題に直面している。
この制限に対処するため, SAM2 をビデオから高次オブジェクトに適応させ, 深度と時空間をシームレスに統合する手法である Segment Anything Model with Depth-guided Adaptive Queries (SAM-DAQ) を提案する。
まず,複数の深さ誘導型並列アダプタ(DPA)をスキップ接続方式で組み込んだパラレルアダプタベースのマルチモーダルイメージエンコーダ(PAMIE)をデプロイする。
注目すべきは,DPAがマルチモーダルな特徴の融合を容易にするために深度手がかりを利用する場合,フリーな条件下で凍結したSAMエンコーダを微調整することである。
第2に、クエリ駆動時間メモリ(QTM)モジュールをデプロイし、メモリバンクを統一し、学習可能なパイプラインに埋め込む。
具体的には、フレームレベルのクエリとビデオレベルのクエリを同時に活用することにより、QTMモジュールは、時間的一貫性の特徴を選択的に抽出するだけでなく、クエリの時間的表現を反復的に更新することが可能になる。
3つのRGB-D VSODデータセットに対して大規模な実験を行い、提案したSAM-DAQは、すべての評価指標で常に最先端の手法より優れていることを示した。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Multimodal SAM-adapter for Semantic Segmentation [19.531901409555278]
マルチモーダルなセマンティックセグメンテーションのためのSegment Anything Model(SAM)の機能を拡張する新しいフレームワークであるMM SAM-adapterを提案する。
DeLiVER、FMB、MUSESの3つの挑戦的なベンチマークに対して、MM SAM-adapterが最先端のパフォーマンスを提供するアプローチを評価した。
論文 参考訳(メタデータ) (2025-09-12T16:58:51Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Boosting 3D Object Detection with Semantic-Aware Multi-Branch Framework [44.44329455757931]
自律走行では、LiDARセンサーは3Dポイントの雲の取得に不可欠であり、信頼できる幾何学的情報を提供する。
従来の前処理のサンプリング手法は意味的特徴を無視することが多く、詳細な損失や接地点干渉を引き起こす。
本稿では,Semantic-aware Multi-branch Smpling (SMS)モジュールとマルチビュー制約を用いたマルチブランチ2次元オブジェクト検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-08T09:25:45Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。