論文の概要: Mamba-based Efficient Spatio-Frequency Motion Perception for Video Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2507.23601v1
- Date: Thu, 31 Jul 2025 14:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.929049
- Title: Mamba-based Efficient Spatio-Frequency Motion Perception for Video Camouflaged Object Detection
- Title(参考訳): マンバを用いたビデオカモフラージュ物体検出のための効率の良い周波数周波数運動知覚
- Authors: Xin Li, Keren Fu, Qijun Zhao,
- Abstract要約: 既存の物体カモフラージュ法(VCOD)は、主に外見に頼り、破壊する動きの手がかりを知覚する。
近年の研究では、周波数特性が特徴表現を強化し、出現制限を補うだけでなく、周波数エネルギーの変動を通じて運動を知覚できることが示されている。
そこで本研究では,オン周波数動作知覚に基づく新しい視覚カモフラージュ・マンバ(Vcamba)を提案する。
- 参考スコア(独自算出の注目度): 15.982078102328233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing video camouflaged object detection (VCOD) methods primarily rely on spatial appearance features to perceive motion cues for breaking camouflage. However, the high similarity between foreground and background in VCOD results in limited discriminability of spatial appearance features (e.g., color and texture), restricting detection accuracy and completeness. Recent studies demonstrate that frequency features can not only enhance feature representation to compensate for appearance limitations but also perceive motion through dynamic variations in frequency energy. Furthermore, the emerging state space model called Mamba, enables efficient perception of motion cues in frame sequences due to its linear-time long-sequence modeling capability. Motivated by this, we propose a novel visual camouflage Mamba (Vcamba) based on spatio-frequency motion perception that integrates frequency and spatial features for efficient and accurate VCOD. Specifically, we propose a receptive field visual state space (RFVSS) module to extract multi-scale spatial features after sequence modeling. For frequency learning, we introduce an adaptive frequency component enhancement (AFE) module with a novel frequency-domain sequential scanning strategy to maintain semantic consistency. Then we propose a space-based long-range motion perception (SLMP) module and a frequency-based long-range motion perception (FLMP) module to model spatio-temporal and frequency-temporal sequences in spatial and frequency phase domains. Finally, the space and frequency motion fusion module (SFMF) integrates dual-domain features for unified motion representation. Experimental results show that our Vcamba outperforms state-of-the-art methods across 6 evaluation metrics on 2 datasets with lower computation cost, confirming the superiority of Vcamba. Our code is available at: https://github.com/BoydeLi/Vcamba.
- Abstract(参考訳): 既存のビデオカモフラージュ物体検出法(VCOD)は、主に空間的な外観特徴に頼り、カモフラージュを破る動きの手がかりを知覚する。
しかし,VCODにおける前景と背景の類似性が高いため,空間的特徴(色やテクスチャなど)の識別が限定され,検出精度と完全性が制限される。
近年の研究では、周波数特性は外観制限を補うために特徴表現を強化するだけでなく、周波数エネルギーの動的変動を通じて運動を知覚することができることが示されている。
さらに、Mambaと呼ばれる新興状態空間モデルは、その線形時間長シーケンスモデリング能力により、フレームシーケンスにおける動きキューの効率的な認識を可能にする。
そこで本研究では,周波数と空間的特徴を統合し,効率よく精度の高いVCODを実現する新しい視覚カモフラージュ・マンバ(Vcamba)を提案する。
具体的には、シーケンスモデリング後のマルチスケール空間特徴を抽出する、受容場視覚状態空間(RFVSS)モジュールを提案する。
周波数学習のための適応周波数成分拡張(AFE)モジュールは,意味的一貫性を維持するために,新しい周波数領域シーケンシャル・スキャン・ストラテジーを備える。
次に、空間及び周波数位相領域における時空間及び周波数時間シーケンスをモデル化するための、空間ベース長距離モーション知覚(SLMP)モジュールと周波数ベース長距離モーション知覚(FLMP)モジュールを提案する。
最後に、空間と周波数の運動融合モジュール(SFMF)は、統合された運動表現のための二重ドメイン機能を統合する。
実験の結果,Vcambaは計算コストの低い2つのデータセットに対して,6つの評価指標に対して,最先端の手法よりも優れており,Vcambaの優位性が確認されている。
私たちのコードは、https://github.com/BoydeLi/Vcamba.comで利用可能です。
関連論文リスト
- FE-UNet: Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation [48.034848981295525]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Frequency Decoupling for Motion Magnification via Multi-Level Isomorphic Architecture [42.51987004849891]
Video Motion Magnificationは、マクロ世界の物体の微妙で知覚できない動き情報を明らかにすることを目的としている。
動作拡大のための周波数デカップリングの新しいパラダイムであるFD4MMについて述べる。
FD4MMはFLOPを1.63$times$に削減し、推論速度を1.68$times$に向上させる。
論文 参考訳(メタデータ) (2024-03-12T06:07:29Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。