論文の概要: RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory
- arxiv url: http://arxiv.org/abs/2504.16471v1
- Date: Wed, 23 Apr 2025 07:31:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.033998
- Title: RGB-D Video Object Segmentation via Enhanced Multi-store Feature Memory
- Title(参考訳): 拡張多店舗特徴記憶によるRGB-Dビデオオブジェクト分割
- Authors: Boyue Xu, Ruichao Hou, Tongwei Ren, Gangshan Wu,
- Abstract要約: RGB-D (RGB-D) Video Object (VOS) は、RGBのきめ細かいテクスチャ情報を奥行きの幾何学的手がかりと統合することを目的としている。
本稿では,ロバストセグメンテーションのためのマルチストア機能メモリを用いた新しいRGB-D VOSを提案する。
本稿では,最新のRGB-D VOSベンチマークにおいて,提案手法の最先端性能を示す。
- 参考スコア(独自算出の注目度): 34.406308400305385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The RGB-Depth (RGB-D) Video Object Segmentation (VOS) aims to integrate the fine-grained texture information of RGB with the spatial geometric clues of depth modality, boosting the performance of segmentation. However, off-the-shelf RGB-D segmentation methods fail to fully explore cross-modal information and suffer from object drift during long-term prediction. In this paper, we propose a novel RGB-D VOS method via multi-store feature memory for robust segmentation. Specifically, we design the hierarchical modality selection and fusion, which adaptively combines features from both modalities. Additionally, we develop a segmentation refinement module that effectively utilizes the Segmentation Anything Model (SAM) to refine the segmentation mask, ensuring more reliable results as memory to guide subsequent segmentation tasks. By leveraging spatio-temporal embedding and modality embedding, mixed prompts and fused images are fed into SAM to unleash its potential in RGB-D VOS. Experimental results show that the proposed method achieves state-of-the-art performance on the latest RGB-D VOS benchmark.
- Abstract(参考訳): The RGB-Depth (RGB-D) Video Object Segmentation (VOS)は、RGBのきめ細かいテクスチャ情報を奥行きの幾何学的手がかりと統合し、セグメンテーションの性能を高めることを目的としている。
しかし、市販のRGB-Dセグメンテーション手法は、クロスモーダル情報を完全に探索することができず、長期予測中に物体の漂流に悩まされる。
本稿では,ロバストセグメンテーションのためのマルチストア機能メモリを用いた新しいRGB-D VOS手法を提案する。
具体的には、両モードの特徴を適応的に組み合わせた階層的モダリティ選択と融合を設計する。
さらに,Segmentation Anything Model(SAM)を有効活用してセグメンテーションマスクを改良し,メモリとしての信頼性を高め,セグメンテーションタスクを導出するセグメンテーション・リファインメント・モジュールを開発した。
時空間埋め込みとモダリティ埋め込みを利用して、混合プロンプトと融合画像がSAMに供給され、RGB-D VOSにおけるそのポテンシャルを解き放つ。
実験結果から,提案手法は最新のRGB-D VOSベンチマークにおいて最先端の性能を実現することが示された。
関連論文リスト
- HDBFormer: Efficient RGB-D Semantic Segmentation with A Heterogeneous Dual-Branch Framework [0.0]
屋内シーンのRGB-Dセマンティックセグメンテーションにおいて、RGB画像からのリッチな色情報と奥行き画像からの空間的距離情報とを効果的に統合することが重要な課題である。
本稿では,HDBFormerと呼ばれる新しい異種二分岐フレームワークを提案する。
リッチディテールを含むRGB画像に対しては,局所的特徴とグローバルな特徴を抽出するために,基本および詳細エンコーダを併用する。
より単純な深度画像に対して,より少ないパラメータで効率的に深度特徴を抽出する軽量階層エンコーダLDFormerを提案する。
論文 参考訳(メタデータ) (2025-04-18T09:29:46Z) - IAM: Enhancing RGB-D Instance Segmentation with New Benchmarks [4.3266254914862445]
RGB-Dセグメンテーションは、RGBのみの手法よりもリッチなシーン理解を約束する。
インスタンスレベルのRGB-Dセグメンテーションデータセットは比較的少ない。
インスタンスレベルで区別された3つのRGB-Dインスタンスセグメンテーションベンチマークを導入する。
本稿では,RGB-Dデータ統合のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2025-01-03T08:03:24Z) - ViDSOD-100: A New Dataset and a Baseline Model for RGB-D Video Salient Object Detection [51.16181295385818]
まず、注釈付きRGB-D video SODOD(DSOD-100)データセットを収集し、合計9,362フレーム内に100の動画を含む。
各ビデオのフレームはすべて、高品質なサリエンシアノテーションに手動で注釈付けされる。
本稿では,RGB-Dサリアンオブジェクト検出のための新しいベースラインモデル,attentive triple-fusion network (ATF-Net)を提案する。
論文 参考訳(メタデータ) (2024-06-18T12:09:43Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - SAD: Segment Any RGBD [54.24917975958583]
Segment Anything Model (SAM)は、2D RGB画像の任意の部分のセグメント化の有効性を実証している。
本稿では,画像から直接幾何学情報を抽出するSegment Any RGBD (SAD) モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:26:56Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - FEANet: Feature-Enhanced Attention Network for RGB-Thermal Real-time
Semantic Segmentation [19.265576529259647]
RGB-Tセマンティックセマンティックセグメンテーションタスクのための2段階機能拡張アテンションネットワーク(FEANet)を提案する。
具体的には、チャネルビューと空間ビューの両方からマルチレベル特徴を発掘・拡張するための機能拡張注意モジュール(FEAM)を導入する。
提案する FEAM モジュールに特化して,FEANet は空間情報を保存し,融合した RGB-T 画像から高分解能な特徴に注目する。
論文 参考訳(メタデータ) (2021-10-18T02:43:41Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。