論文の概要: Explicit Motion Handling and Interactive Prompting for Video Camouflaged
Object Detection
- arxiv url: http://arxiv.org/abs/2403.01968v1
- Date: Mon, 4 Mar 2024 12:11:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 18:56:12.658728
- Title: Explicit Motion Handling and Interactive Prompting for Video Camouflaged
Object Detection
- Title(参考訳): ビデオカモフラージュ物体検出のための明示的なモーションハンドリングと対話型プロンプト
- Authors: Xin Zhang, Tao Xiao, Gepeng Ji, Xuan Wu, Keren Fu, Qijun Zhao
- Abstract要約: 既存のビデオカモフラージュされた物体検出手法は、暗黙的に入力やモデルの動きとしてノイズのある動きを推定する。
本稿では,動作キューを明示的に処理する EMIP という,VCOD のための Explicit Motion Handing and Interactive Prompting framework を提案する。
EMIPは、カモフラージュされたセグメンテーションと光フロー推定を同時に行う2ストリームアーキテクチャによって特徴付けられる。
- 参考スコア(独自算出の注目度): 23.059829327898818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflage poses challenges in distinguishing a static target, whereas any
movement of the target can break this disguise. Existing video camouflaged
object detection (VCOD) approaches take noisy motion estimation as input or
model motion implicitly, restricting detection performance in complex dynamic
scenes. In this paper, we propose a novel Explicit Motion handling and
Interactive Prompting framework for VCOD, dubbed EMIP, which handles motion
cues explicitly using a frozen pre-trained optical flow fundamental model. EMIP
is characterized by a two-stream architecture for simultaneously conducting
camouflaged segmentation and optical flow estimation. Interactions across the
dual streams are realized in an interactive prompting way that is inspired by
emerging visual prompt learning. Two learnable modules, i.e. the camouflaged
feeder and motion collector, are designed to incorporate segmentation-to-motion
and motion-to-segmentation prompts, respectively, and enhance outputs of the
both streams. The prompt fed to the motion stream is learned by supervising
optical flow in a self-supervised manner. Furthermore, we show that long-term
historical information can also be incorporated as a prompt into EMIP and
achieve more robust results with temporal consistency. Experimental results
demonstrate that our EMIP achieves new state-of-the-art records on popular VCOD
benchmarks. The code will be publicly available.
- Abstract(参考訳): カモフラージュは静的な標的の識別に挑戦するが、標的の動きはこの変装を破る可能性がある。
既存のビデオカモフラージュオブジェクト検出(VCOD)アプローチは、複雑なダイナミックシーンにおける検出性能を制限するために、入力またはモデル動作としてノイズのある動き推定を行う。
本稿では,凍結した光フロー基本モデルを用いて,動きキューを明示的に処理する新しい明示的動作ハンドリングと対話型vcodプロンプトフレームワーク,emipを提案する。
EMIPは、カモフラージュされたセグメンテーションと光フロー推定を同時に行う2ストリームアーキテクチャによって特徴付けられる。
デュアルストリーム間のインタラクションは、視覚的なプロンプト学習にインスパイアされたインタラクティブなプロンプト方法で実現される。
学習可能な2つのモジュール、すなわちcamouflaged feederとmotion collectorは、セグメンテーション・トゥ・モーションとモーション・トゥ・セグメンテーション・プロンプトをそれぞれ組み込んで、両方のストリームの出力を高めるように設計されている。
モーションストリームに供給されるプロンプトは、自己教師された方法で光の流れを監視することによって学習される。
さらに, 長期的履歴情報をEMIPのプロンプトとして組み込んで, 時間的整合性でより堅牢な結果が得られることを示す。
実験の結果,我々のemipは,vcodベンチマークにおいて新たな最先端記録を達成した。
コードは公開される予定だ。
関連論文リスト
- Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation
for Complex Scenes [10.936350433952668]
モーションセグメンテーション(Motion segmentation)とも呼ばれる動的シーン部品の迅速かつ信頼性の高い識別は、モバイルセンサーにとって重要な課題である。
イベントカメラはこれらの制限を克服する可能性があるが、それに対応する方法は小規模の屋内環境でのみ実証されている。
本研究は,複雑な大規模屋外環境にも展開可能な,クラスに依存しない動作セグメンテーションのイベントベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T14:59:34Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。