論文の概要: CamoSAM2: Motion-Appearance Induced Auto-Refining Prompts for Video Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2504.00375v1
- Date: Tue, 01 Apr 2025 02:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:15.179448
- Title: CamoSAM2: Motion-Appearance Induced Auto-Refining Prompts for Video Camouflaged Object Detection
- Title(参考訳): CamoSAM2:ビデオカモフラージュ物体検出のための運動提示誘起自動精製プロンプト
- Authors: Xin Zhang, Keren Fu, Qijun Zhao,
- Abstract要約: 実世界のシナリオにおける自動セグメンテーションへのSAM2の適用は、カモフラージュ認識と信頼性の高いプロンプト生成の課題に直面している。
本稿では,MAPI(Motion-appearance prompt inducer)と改良フレームワークであるCamoSAM2を提案し,SAM2のプロンプトを自動生成・洗練する。
提案モデルであるCamoSAM2は,mIoU測定値の8.0%と10.1%の増加を達成し,既存の最先端手法を著しく上回っている。
- 参考スコア(独自算出の注目度): 14.219232629274186
- License:
- Abstract: The Segment Anything Model 2 (SAM2), a prompt-guided video foundation model, has remarkably performed in video object segmentation, drawing significant attention in the community. Due to the high similarity between camouflaged objects and their surroundings, which makes them difficult to distinguish even by the human eye, the application of SAM2 for automated segmentation in real-world scenarios faces challenges in camouflage perception and reliable prompts generation. To address these issues, we propose CamoSAM2, a motion-appearance prompt inducer (MAPI) and refinement framework to automatically generate and refine prompts for SAM2, enabling high-quality automatic detection and segmentation in VCOD task. Initially, we introduce a prompt inducer that simultaneously integrates motion and appearance cues to detect camouflaged objects, delivering more accurate initial predictions than existing methods. Subsequently, we propose a video-based adaptive multi-prompts refinement (AMPR) strategy tailored for SAM2, aimed at mitigating prompt error in initial coarse masks and further producing good prompts. Specifically, we introduce a novel three-step process to generate reliable prompts by camouflaged object determination, pivotal prompting frame selection, and multi-prompts formation. Extensive experiments conducted on two benchmark datasets demonstrate that our proposed model, CamoSAM2, significantly outperforms existing state-of-the-art methods, achieving increases of 8.0% and 10.1% in mIoU metric. Additionally, our method achieves the fastest inference speed compared to current VCOD models.
- Abstract(参考訳): Segment Anything Model 2 (SAM2) はプロンプト誘導型ビデオファンデーションモデルであり、ビデオオブジェクトセグメンテーションにおいて顕著に機能し、コミュニティで大きな注目を集めている。
カモフラージュされた物体とその周囲の類似性が高いため、人間の目でも区別が難しいため、現実世界のシナリオにおける自動セグメンテーションへのSAM2の適用は、カモフラージュ知覚と信頼できるプロンプト生成の課題に直面している。
これらの問題に対処するために,動き検出プロンプトインデューサ(MAPI)および改良フレームワークであるCamoSAM2を提案し,SAM2のプロンプトを自動生成・洗練し,VCODタスクにおける高品質な自動検出とセグメンテーションを実現する。
はじめに,動作と外観を同時に統合したプロンプトインデューサを導入し,既存の手法よりも正確な初期予測を行う。
次に,初期粗いマスクにおけるプロンプトエラーを軽減し,さらに良好なプロンプトを生成するために,SAM2に適したビデオベースの適応型マルチプロンプト改善(AMPR)戦略を提案する。
具体的には、カモフラージュされたオブジェクト決定、ピボットプロンプトフレーム選択、マルチプロンプト生成により、信頼性の高いプロンプトを生成する新しい3段階プロセスを提案する。
2つのベンチマークデータセットで実施された大規模な実験により、提案モデルであるCamoSAM2が既存の最先端手法を著しく上回り、mIoUメートル法では8.0%と10.1%の増加を達成した。
また,提案手法は現在のVCODモデルよりも高速な推論速度を実現する。
関連論文リスト
- COMPrompter: reconceptualized segment anything model with multiprompt network for camouflaged object detection [42.23374375190698]
カモフラーグ型物体検出(COD)のための新しいマルチプロンプトネットワークComprompterを提案する。
我々のネットワークはSAMにおける単一プロンプト戦略をマルチプロンプト戦略に拡張することを目的としている。
画像埋め込みから高周波特徴を抽出するために離散ウェーブレット変換を用いる。
論文 参考訳(メタデータ) (2024-11-28T01:58:28Z) - FocSAM: Delving Deeply into Focused Objects in Segmenting Anything [58.042354516491024]
Segment Anything Model (SAM)はセグメンテーションモデルにおいて注目すべきマイルストーンである。
2つの重要な側面に基づいてパイプラインを再設計したFocSAMを提案する。
まず,Dwin-MSA(Dynamic Window Multi-head Self-Attention)を提案する。
次に,Pixel-wise Dynamic ReLU (P-DyReLU)を提案する。
論文 参考訳(メタデータ) (2024-05-29T02:34:13Z) - Explicit Motion Handling and Interactive Prompting for Video Camouflaged
Object Detection [23.059829327898818]
既存のビデオカモフラージュされた物体検出手法は、暗黙的に入力やモデルの動きとしてノイズのある動きを推定する。
本稿では,動作キューを明示的に処理する EMIP という,VCOD のための Explicit Motion Handing and Interactive Prompting framework を提案する。
EMIPは、カモフラージュされたセグメンテーションと光フロー推定を同時に行う2ストリームアーキテクチャによって特徴付けられる。
論文 参考訳(メタデータ) (2024-03-04T12:11:07Z) - SAM-based instance segmentation models for the automation of structural
damage detection [0.0]
M1300と命名された1,300の注釈付き画像(640ピクセル×640ピクセル)で、レンガ、壊れたレンガ、ひび割れをカバーしている。
我々は、最新の大規模モデル、プロンプトベースのSegment Anything Model(SAM)など、ベンチマークのためのいくつかの主要なアルゴリズムをテストする。
本稿では,SAM実行を自動化する2つの新しい手法を提案する。第1の方法はプロンプトエンコーダを捨て,SAMエンコーダを他のデコーダに接続することであり,第2の方法は学習可能な自己生成プロンプトを導入する。
論文 参考訳(メタデータ) (2024-01-27T02:00:07Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Can SAM Boost Video Super-Resolution? [78.29033914169025]
単純な有効モジュールであるSAM-guidEd refinEment Module (SEEM)を提案する。
この軽量プラグインモジュールは、セマンティック・アウェア機能の生成にアテンションメカニズムを活用するように設計されている。
我々はSEEMをEDVRとBasicVSRの2つの代表的手法に適用し、最小限の実装労力で継続的に性能を向上する。
論文 参考訳(メタデータ) (2023-05-11T02:02:53Z) - CamoFormer: Masked Separable Attention for Camouflaged Object Detection [94.2870722866853]
カモフラージュされた物体検出のための単純なマスク付き分離型注意(MSA)を提案する。
まず,マルチヘッド・セルフアテンションを3つの部分に分割し,異なるマスキング戦略を用いて,背景からカモフラージュした物体を識別する役割を担っている。
提案手法では,MSAを用いた単純なトップダウンデコーダを用いて,高精度なセグメンテーション結果を得るために,高分解能なセグメンテーション表現を段階的にキャプチャする。
論文 参考訳(メタデータ) (2022-12-10T10:03:27Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Efficient Two-Stream Network for Violence Detection Using Separable
Convolutional LSTM [0.0]
Separable Convolutional LSTM(SepConvLSTM)と予め訓練されたMobileNetを活用した効率的な2ストリームディープラーニングアーキテクチャを提案する。
SepConvLSTMは、ConvLSTMの各ゲートの畳み込み操作を深さ方向に分離可能な畳み込みに置き換えて構築されます。
我々のモデルは、大きくて挑戦的なrwf-2000データセットの精度を2%以上上回っている。
論文 参考訳(メタデータ) (2021-02-21T12:01:48Z) - Depth Guided Adaptive Meta-Fusion Network for Few-shot Video Recognition [86.31412529187243]
わずかにラベル付きサンプルで新しいアクションを学習することを目的としたビデオ認識はほとんどない。
本稿では,AMeFu-Netと呼ばれる映像認識のための深度誘導型適応メタフュージョンネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-20T03:06:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。