論文の概要: SSFam: Scribble Supervised Salient Object Detection Family
- arxiv url: http://arxiv.org/abs/2409.04817v1
- Date: Sat, 7 Sep 2024 13:07:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 20:41:31.824017
- Title: SSFam: Scribble Supervised Salient Object Detection Family
- Title(参考訳): SSFam:Scribbleの監視対象検出ファミリー
- Authors: Zhengyi Liu, Sheng Deng, Xinrui Wang, Linbo Wang, Xianyong Fang, Bin Tang,
- Abstract要約: Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
本モデルでは,異なるモダリティの組み合わせ間の顕著な性能を示し,最高レベルのスクリブル制御手法を更新する。
- 参考スコア(独自算出の注目度): 13.369217449092524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scribble supervised salient object detection (SSSOD) constructs segmentation ability of attractive objects from surroundings under the supervision of sparse scribble labels. For the better segmentation, depth and thermal infrared modalities serve as the supplement to RGB images in the complex scenes. Existing methods specifically design various feature extraction and multi-modal fusion strategies for RGB, RGB-Depth, RGB-Thermal, and Visual-Depth-Thermal image input respectively, leading to similar model flood. As the recently proposed Segment Anything Model (SAM) possesses extraordinary segmentation and prompt interactive capability, we propose an SSSOD family based on SAM, named SSFam, for the combination input with different modalities. Firstly, different modal-aware modulators are designed to attain modal-specific knowledge which cooperates with modal-agnostic information extracted from the frozen SAM encoder for the better feature ensemble. Secondly, a siamese decoder is tailored to bridge the gap between the training with scribble prompt and the testing with no prompt for the stronger decoding ability. Our model demonstrates the remarkable performance among combinations of different modalities and refreshes the highest level of scribble supervised methods and comes close to the ones of fully supervised methods. https://github.com/liuzywen/SSFam
- Abstract(参考訳): Scribble supervised Salient Object Detection (SSSOD) は、スパーススクリブルラベルの監督の下で、周囲からの魅力的な物体のセグメンテーション能力を構築する。
セグメンテーションを改善するために、深度と熱赤外モードは複雑なシーンにおけるRGBイメージの補足となる。
既存の手法では、RGB、RGB-Depth、RGB-Thermal、Visual-Depth-Thermalの画像入力のための様々な特徴抽出とマルチモーダル融合戦略を設計し、同様のモデル洪水を引き起こす。
最近提案されたSegment Anything Model (SAM) は、異常なセグメンテーションと迅速な対話能力を有するため、SSFamと呼ばれるSAMをベースとしたSSSODファミリーを提案し、異なるモダリティを組み合わせて入力する。
まず, 凍結したSAMエンコーダから抽出したモーダル非依存情報と協調して, より優れた特徴アンサンブルを実現するモーダル固有知識を実現するために, 異なるモーダル対応変調器を設計する。
第2に、シャムデコーダは、スクリブルプロンプトによるトレーニングと、より強力な復号能力のためのプロンプトのないテストのギャップを埋めるように調整される。
本モデルでは,異なるモードの組み合わせ間の顕著な性能を示し,最大レベルのスクリブル制御手法をリフレッシュし,完全教師付き手法に近い性能を示す。
https://github.com/liuzywen/SSFam
関連論文リスト
- Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged Object Detection [22.027032083786242]
DSAMはSAMのゼロショット機能を利用して、RGB-Dドメインの正確なセグメンテーションを実現する。
Finer Moduleは、深度の観点から高度にキャモフラージュされたターゲットを正確にセグメンテーションする可能性を探っている。
論文 参考訳(メタデータ) (2024-07-17T06:31:29Z) - HODINet: High-Order Discrepant Interaction Network for RGB-D Salient
Object Detection [4.007827908611563]
RGB-D Salient Object Detection (SOD) は、RGBと深度情報を共同でモデル化することで、顕著な領域を検出することを目的としている。
ほとんどのRGB-D SOD法は、同じ種類のバックボーンと融合モジュールを適用して、マルチモーダリティとマルチステージの特徴を同一に学習する。
本稿では,RGB-D SODのための高次離散相互作用ネットワーク(HODINet)を提案する。
論文 参考訳(メタデータ) (2023-07-03T11:56:21Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Specificity-preserving RGB-D Saliency Detection [103.3722116992476]
本稿では,RGB-Dサリエンシ検出のための特異性保存ネットワーク(SP-Net)を提案する。
2つのモダリティ特化ネットワークと共有学習ネットワークを採用し、個別および共有唾液マップを生成する。
6つのベンチマークデータセットの実験では、SP-Netは他の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-08-18T14:14:22Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。