論文の概要: Improving SAM for Camouflaged Object Detection via Dual Stream Adapters
- arxiv url: http://arxiv.org/abs/2503.06042v1
- Date: Sat, 08 Mar 2025 03:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:30.761558
- Title: Improving SAM for Camouflaged Object Detection via Dual Stream Adapters
- Title(参考訳): デュアルストリームアダプタによるカモフラージュ物体検出のためのSAMの改良
- Authors: Jiaming Liu, Linghe Kong, Guihai Chen,
- Abstract要約: Segment Any Model (SAM) は自然画像上での汎用的なセグメンテーション性能を示す。
本稿では,RGB-D入力に対して擬似オブジェクト検出を行うSAM-CODを提案する。
- 参考スコア(独自算出の注目度): 48.14077145912842
- License:
- Abstract: Segment anything model (SAM) has shown impressive general-purpose segmentation performance on natural images, but its performance on camouflaged object detection (COD) is unsatisfactory. In this paper, we propose SAM-COD that performs camouflaged object detection for RGB-D inputs. While keeping the SAM architecture intact, dual stream adapters are expanded on the image encoder to learn potential complementary information from RGB images and depth images, and fine-tune the mask decoder and its depth replica to perform dual-stream mask prediction. In practice, the dual stream adapters are embedded into the attention block of the image encoder in a parallel manner to facilitate the refinement and correction of the two types of image embeddings. To mitigate channel discrepancies arising from dual stream embeddings that do not directly interact with each other, we augment the association of dual stream embeddings using bidirectional knowledge distillation including a model distiller and a modal distiller. In addition, to predict the masks for RGB and depth attention maps, we hybridize the two types of image embeddings which are jointly learned with the prompt embeddings to update the initial prompt, and then feed them into the mask decoders to synchronize the consistency of image embeddings and prompt embeddings. Experimental results on four COD benchmarks show that our SAM-COD achieves excellent detection performance gains over SAM and achieves state-of-the-art results with a given fine-tuning paradigm.
- Abstract(参考訳): SAM(Segment Any Model)は、自然画像上では印象的な汎用的なセグメンテーション性能を示すが、COD(camouflaged object detection)の性能は不十分である。
本稿では,RGB-D入力に対して擬似オブジェクト検出を行うSAM-CODを提案する。
SAMアーキテクチャをそのまま維持しながら、イメージエンコーダ上にデュアルストリームアダプタを拡張して、RGB画像や奥行き画像から潜在的補完情報を学び、マスクデコーダとその深さレプリカを微調整して、デュアルストリームマスク予測を行う。
実際には、デュアルストリームアダプタを画像エンコーダのアテンションブロックに並列に埋め込んで、2種類の画像埋め込みの洗練と修正を容易にする。
そこで本研究では, モデル蒸留器とモーダル蒸留器を含む双方向の知識蒸留技術を用いて, 直接相互作用しない二重ストリーム埋め込みから生じるチャネルの差異を軽減するために, 二重ストリーム埋め込みの関連性を高める。
さらに,RGBおよび奥行き注意マップのマスクを予測するために,初期プロンプトを更新するために,初期プロンプトと共同で学習した2種類の画像埋め込みをハイブリダイズし,マスクデコーダに供給し,画像埋め込みの一貫性を同期させ,埋め込みを促進させる。
4つのCODベンチマーク実験の結果、SAM-CODはSAMよりも優れた検出性能を達成し、与えられた微調整パラダイムを用いて最先端の結果を達成することが示された。
関連論文リスト
- Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Neuromorphic Synergy for Video Binarization [54.195375576583864]
バイモーダルオブジェクトは視覚システムによって容易に認識できる情報を埋め込む視覚形式として機能する。
ニューロモルフィックカメラは、動きのぼかしを緩和する新しい機能を提供するが、最初にブルーを脱色し、画像をリアルタイムでバイナライズするのは簡単ではない。
本稿では,イベント空間と画像空間の両方で独立に推論を行うために,バイモーダル目標特性の事前知識を活用するイベントベースバイナリ再構築手法を提案する。
また、このバイナリ画像を高フレームレートバイナリビデオに伝搬する効率的な統合手法も開発している。
論文 参考訳(メタデータ) (2024-02-20T01:43:51Z) - CAT-SAM: Conditional Tuning for Few-Shot Adaptation of Segment Anything Model [90.26396410706857]
本稿では,CAT-SAM(ConditionAl Tuning Network)を提案する。
CAT-SAMはSAM全体を凍結し、マスクデコーダとイメージエンコーダに少数の学習可能なパラメータを同時に適用する。
Cat-SAM 変種は、非常に困難なワンショット適応設定の下でも、常に優れた目標セグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2024-02-06T02:00:18Z) - Mask-adaptive Gated Convolution and Bi-directional Progressive Fusion Network for Depth Completion [3.5940515868907164]
エンコーダ・デコーダ構造に基づく深度補完のための新しいモデルを提案する。
本モデルでは,マスク適応型Gated Convolutionアーキテクチャと双方向プログレッシブフュージョンモジュールの2つの重要なコンポーネントを紹介する。
深度マップの完成と既存手法の精度と信頼性に優れる性能を実現した。
論文 参考訳(メタデータ) (2024-01-15T02:58:06Z) - DVANet: Disentangling View and Action Features for Multi-View Action
Recognition [56.283944756315066]
本稿では,学習した行動表現を映像中の視覚関連情報から切り離すための多視点行動認識手法を提案する。
本モデルとトレーニング方法は,4つの多視点行動認識データセットにおいて,他のユニモーダルモデルよりも有意に優れている。
論文 参考訳(メタデータ) (2023-12-10T01:19:48Z) - Dual-Stream Attention Transformers for Sewer Defect Classification [2.5499055723658097]
効率的な下水道欠陥分類のためのRGBおよび光フロー入力を処理するデュアルストリーム・ビジョン・トランスフォーマアーキテクチャを提案する。
私たちのキーとなるアイデアは、RGBとモーションストリームの相補的な強みを活用するために、自己注意の正則化を使用することです。
自己注意型レギュレータによる動作キューの活用により、RGBアテンションマップの整列と強化を行い、ネットワークが関連する入力領域に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-07T02:31:51Z) - DMDC: Dynamic-mask-based dual camera design for snapshot Hyperspectral
Imaging [3.3946853660795884]
本稿では,RGBカメラとCASSIシステムを組み合わせた動的マスク方式のデュアルカメラシステムを提案する。
まず、RGB画像に基づいてシーンの空間的特徴分布を学習し、SLMに各シーンをエンコードするよう指示し、最後にRGB画像とCASSI画像の両方をネットワークに送信して再構成を行う。
さらに,2つのネットワークからなるDMDC-net,マスクの動的調整のための小型CNNベースの動的マスクネットワーク,RGBおよびCASSI測定を用いた再構成のためのマルチモーダル再構成ネットワークを設計した。
論文 参考訳(メタデータ) (2023-08-03T05:10:58Z) - Dual-view Snapshot Compressive Imaging via Optical Flow Aided Recurrent
Neural Network [14.796204921975733]
デュアルビュースナップショット圧縮イメージング(SCI)は、2つの視野(FoV)からのビデオを1つのスナップショットでキャプチャすることを目的としている。
既存のモデルベースの復号アルゴリズムでは個々のシーンを再構築することは困難である。
本稿では,2重ビデオSCIシステムのための光フロー支援型リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-11T14:24:44Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Two-stream Encoder-Decoder Network for Localizing Image Forgeries [4.982505311411925]
本稿では,高レベル画像と低レベル画像の両方を利用する2ストリームエンコーダデコーダネットワークを提案する。
提案手法の性能評価のために,複数の標準法医学データセットの実験的検討を行った。
論文 参考訳(メタデータ) (2020-09-27T15:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。