論文の概要: CamSAM2: Segment Anything Accurately in Camouflaged Videos
- arxiv url: http://arxiv.org/abs/2503.19730v2
- Date: Wed, 26 Mar 2025 02:14:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 09:39:23.532825
- Title: CamSAM2: Segment Anything Accurately in Camouflaged Videos
- Title(参考訳): CamSAM2: カモフラージュ動画のセグメンテーション
- Authors: Yuli Zhou, Guolei Sun, Yawei Li, Yuqian Fu, Luca Benini, Ender Konukoglu,
- Abstract要約: 本研究では,Camouflaged SAM2 (CamSAM2) を提案する。
現在のフレームと以前のフレームの細粒度と高解像度機能をフル活用するために,暗黙的オブジェクト認識融合 (IOF) と明示的オブジェクト認識融合 (EOF) モジュールを提案する。
CamSAM2はSAM2に無視可能な学習可能なパラメータのみを追加するが、3つのVCOSデータセットでSAM2を大幅に上回っている。
- 参考スコア(独自算出の注目度): 37.0152845263844
- License:
- Abstract: Video camouflaged object segmentation (VCOS), aiming at segmenting camouflaged objects that seamlessly blend into their environment, is a fundamental vision task with various real-world applications. With the release of SAM2, video segmentation has witnessed significant progress. However, SAM2's capability of segmenting camouflaged videos is suboptimal, especially when given simple prompts such as point and box. To address the problem, we propose Camouflaged SAM2 (CamSAM2), which enhances SAM2's ability to handle camouflaged scenes without modifying SAM2's parameters. Specifically, we introduce a decamouflaged token to provide the flexibility of feature adjustment for VCOS. To make full use of fine-grained and high-resolution features from the current frame and previous frames, we propose implicit object-aware fusion (IOF) and explicit object-aware fusion (EOF) modules, respectively. Object prototype generation (OPG) is introduced to abstract and memorize object prototypes with informative details using high-quality features from previous frames. Extensive experiments are conducted to validate the effectiveness of our approach. While CamSAM2 only adds negligible learnable parameters to SAM2, it substantially outperforms SAM2 on three VCOS datasets, especially achieving 12.2 mDice gains with click prompt on MoCA-Mask and 19.6 mDice gains with mask prompt on SUN-SEG-Hard, with Hiera-T as the backbone. The code will be available at https://github.com/zhoustan/CamSAM2.
- Abstract(参考訳): ビデオカモフラージュオブジェクトセグメンテーション (VCOS) は, 環境にシームレスに混入するカモフラーグオブジェクトのセグメンテーションを目的とした, 様々な実世界のアプリケーションに対する基本的なビジョンタスクである。
SAM2のリリースにより、ビデオセグメンテーションは大きな進歩をみせた。
しかし、SAM2のカモフラージュされたビデオのセグメンテーション能力は、特にポイントやボックスのような単純なプロンプトが与えられた場合、最適以下である。
そこで本研究では,Camouflaged SAM2(CamSAM2)を提案する。
具体的には,VCOSの機能調整の柔軟性を提供するために,デカモフラージュトークンを導入する。
現在のフレームとそれ以前のフレームの細粒度および高解像度特徴をフル活用するために,暗黙的オブジェクト認識融合(IOF)と明示的オブジェクト認識融合(EOF)モジュールを提案する。
オブジェクトプロトタイプ生成(OPG)は、オブジェクトプロトタイプを抽象化し、記憶するために導入され、以前のフレームの高品質機能を使用して情報的詳細を提供する。
本手法の有効性を検証するため,広範囲な実験を行った。
CamSAM2はSAM2に無視可能な学習可能なパラメータのみを付加するが、3つのVCOSデータセットでSAM2を実質的に上回り、特にMoCA-Maskのクリックプロンプトで12.2mDice、SUN-SEG-Hardのマスクプロンプトで19.6mDiceゲインを達成した。
コードはhttps://github.com/zhoustan/CamSAM2.comから入手できる。
関連論文リスト
- EdgeTAM: On-Device Track Anything Model [65.10032957471824]
Segment Anything Model (SAM) 2はさらに、イメージからビデオへの入力をメモリバンク機構を通じて拡張する。
私たちはSAM 2をより効率的にし、同等のパフォーマンスを維持しながらモバイルデバイス上でも動作できるようにすることを目標としています。
計算コストを削減するために,新しい2次元空間知覚器を利用するEdgeTAMを提案する。
論文 参考訳(メタデータ) (2025-01-13T12:11:07Z) - When SAM2 Meets Video Shadow and Mirror Detection [3.3993877661368757]
本研究では,3つのビデオセグメンテーションにおけるセグメンテーションモデル2(SAM2)の有効性を評価する。
具体的には、地上の真理点またはマスクプロンプトを用いて、最初のフレームを初期化し、その後のフレームに対応するマスクを予測する。
実験の結果,特にポイントプロンプトを用いた場合,SAM2の性能は最適以下であることが示唆された。
論文 参考訳(メタデータ) (2024-12-26T17:35:20Z) - When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation [36.174458990817165]
本研究では,ビデオキャモフラージュオブジェクトセグメンテーション(VCOS)におけるSegment Anything Model 2(SAM2)の適用と性能について検討する。
VCOSは、似たような色やテクスチャ、照明条件の悪さなどにより、ビデオの周囲にシームレスにブレンドされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2024-09-27T11:35:50Z) - SAM2-UNet: Segment Anything 2 Makes Strong Encoder for Natural and Medical Image Segmentation [51.90445260276897]
我々は,Segment Anything Model 2 (SAM2) がU字型セグメンテーションモデルの強力なエンコーダであることを証明した。
本稿では, SAM2-UNet と呼ばれる, 汎用画像分割のための簡易かつ効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-16T17:55:38Z) - From SAM to SAM 2: Exploring Improvements in Meta's Segment Anything Model [0.5639904484784127]
Segment Anything Model (SAM)は、2023年4月にMetaによってコンピュータビジョンコミュニティに導入された。
SAMはゼロショットのパフォーマンスに優れ、追加のトレーニングなしで見えないオブジェクトをセグメンテーションする。
SAM 2は、この機能をビデオに拡張し、前および後続のフレームからのメモリを活用して、ビデオ全体にわたって正確なセグメンテーションを生成する。
論文 参考訳(メタデータ) (2024-08-12T17:17:35Z) - Evaluating SAM2's Role in Camouflaged Object Detection: From SAM to SAM2 [10.751277821864916]
報告によると、SAM2のオートモードでのプロンプトなしで、画像内の異なるオブジェクトを知覚する能力は低下している。
具体的には, この性能低下を評価するために, カモフラージュされた物体検出の課題を用いる。
論文 参考訳(メタデータ) (2024-07-31T13:32:10Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM [62.85895749882285]
海洋動物(英: Marine Animal、MAS)は、海洋環境に生息する動物を分類する動物である。
高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。
提案手法は,広く使用されている5つのMASデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-07T15:34:40Z) - Personalize Segment Anything Model with One Shot [52.54453744941516]
我々は,Segment Anything Model (SAM) のためのトレーニング不要なパーソナライズ手法を提案する。
PerSAMは、参照マスクを持つ1つのイメージしか持たないため、最初にターゲットのコンセプトを以前のロケーションでローカライズする。
PerSAMは、ターゲット誘導された注意、ターゲットセマンティックなプロンプト、そしてカスケードされたポストリファインメントという3つのテクニックを通じて、他の画像やビデオにセグメントする。
論文 参考訳(メタデータ) (2023-05-04T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。