論文の概要: Efficient Segment Anything with Depth-Aware Fusion and Limited Training Data
- arxiv url: http://arxiv.org/abs/2602.11804v1
- Date: Thu, 12 Feb 2026 10:35:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.772805
- Title: Efficient Segment Anything with Depth-Aware Fusion and Limited Training Data
- Title(参考訳): 深部核融合と限られた訓練データを用いた効率的なセグメンテーション
- Authors: Yiming Zhou, Xuenjie Xie, Panfeng Li, Albrecht Kunz, Ahmad Osman, Xavier Maldague,
- Abstract要約: Segment Anything Models (SAM)は印象的な普遍的なセグメンテーション性能を実現するが、大量のデータセットを必要とする。
本稿では,単眼深度で高効率なViT-SAMを実現する軽量なRGB-D融合フレームワークを提案する。
提案手法は高効率なViT-SAMよりも高い精度を実現し,深度キューがセグメンテーションに強い幾何学的先行性をもたらすことを示す。
- 参考スコア(独自算出の注目度): 2.8734453162509355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Segment Anything Models (SAM) achieve impressive universal segmentation performance but require massive datasets (e.g., 11M images) and rely solely on RGB inputs. Recent efficient variants reduce computation but still depend on large-scale training. We propose a lightweight RGB-D fusion framework that augments EfficientViT-SAM with monocular depth priors. Depth maps are generated with a pretrained estimator and fused mid-level with RGB features through a dedicated depth encoder. Trained on only 11.2k samples (less than 0.1\% of SA-1B), our method achieves higher accuracy than EfficientViT-SAM, showing that depth cues provide strong geometric priors for segmentation.
- Abstract(参考訳): Segment Anything Models (SAM)は、印象的な普遍的なセグメンテーション性能を実現するが、大量のデータセット(例えば、1100イメージ)を必要とし、RGB入力のみに依存している。
最近の効率的な変種は計算を減らしているが、それでも大規模な訓練に依存している。
本稿では,単眼深度で高効率なViT-SAMを実現する軽量なRGB-D融合フレームワークを提案する。
深度マップは事前訓練された推定器で生成され、専用の深度エンコーダを通じてRGB特徴と融合する。
1.2kのサンプル(SA-1Bの0.1\%未満)でトレーニングした結果,この手法はEfficientViT-SAMよりも精度が高く,深度はセグメンテーションに強力な幾何学的先行性をもたらすことがわかった。
関連論文リスト
- HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。
DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。
3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-09-23T07:32:11Z) - Exploring Deeper! Segment Anything Model with Depth Perception for Camouflaged Object Detection [22.027032083786242]
DSAMはSAMのゼロショット機能を利用して、RGB-Dドメインの正確なセグメンテーションを実現する。
Finer Moduleは、深度の観点から高度にキャモフラージュされたターゲットを正確にセグメンテーションする可能性を探っている。
論文 参考訳(メタデータ) (2024-07-17T06:31:29Z) - Depth-Guided Semi-Supervised Instance Segmentation [62.80063539262021]
Semi-Supervised Instance (SSIS)は、トレーニング中にラベルなしデータの量を活用することを目的としている。
従来のフレームワークは主に、ラベルなし画像のRGB情報を利用して擬似ラベルを生成する。
この制限を克服するために、Depth-Guided (DG)フレームワークを導入します。
論文 参考訳(メタデータ) (2024-06-25T09:36:50Z) - CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。
我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文 参考訳(メタデータ) (2023-02-13T07:09:45Z) - Pyramidal Attention for Saliency Detection [30.554118525502115]
本稿では,RGB画像のみを活用し,RGBから深度を推定し,中間深度特性を利用する。
ピラミッド型アテンション構造を用いて,マルチレベル畳み込み変換器の特徴を抽出し,初期表現の処理を行う。
我々は8つのRGBおよびRGB-Dデータセット上で21と40の最先端SOD法に対する性能を著しく改善したことを報告した。
論文 参考訳(メタデータ) (2022-04-14T06:57:46Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。