論文の概要: Explicit Motion Handling and Interactive Prompting for Video Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2403.01968v2
- Date: Mon, 28 Apr 2025 06:51:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:51.667544
- Title: Explicit Motion Handling and Interactive Prompting for Video Camouflaged Object Detection
- Title(参考訳): ビデオカモフラージュ物体検出のための明示的なモーションハンドリングと対話型プロンプティング
- Authors: Xin Zhang, Tao Xiao, Gepeng Ji, Xuan Wu, Keren Fu, Qijun Zhao,
- Abstract要約: EMIPは、凍結したトレーニング済みの光フロー基本モデルを使用して、運動キューを明示的に処理する。
2つの学習可能なモジュール、すなわちカモフラージュフィードとモーションコレクタは、セグメンテーション・トゥ・モーション・トゥ・セグメンテーション・プロンプトを組み込むように設計されている。
我々のEMIPは、一般的なVCODベンチマークで新しい最先端の記録を達成していることを示す。
- 参考スコア(独自算出の注目度): 21.762443391198385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflage poses challenges in distinguishing a static target, whereas any movement of the target can break this disguise. Existing video camouflaged object detection (VCOD) approaches take noisy motion estimation as input or model motion implicitly, restricting detection performance in complex dynamic scenes. In this paper, we propose a novel Explicit Motion handling and Interactive Prompting framework for VCOD, dubbed EMIP, which handles motion cues explicitly using a frozen pre-trained optical flow fundamental model. EMIP is characterized by a two-stream architecture for simultaneously conducting camouflaged segmentation and optical flow estimation. Interactions across the dual streams are realized in an interactive prompting way that is inspired by emerging visual prompt learning. Two learnable modules, i.e., the camouflaged feeder and motion collector, are designed to incorporate segmentation-to-motion and motion-to-segmentation prompts, respectively, and enhance outputs of the both streams. The prompt fed to the motion stream is learned by supervising optical flow in a self-supervised manner. Furthermore, we show that long-term historical information can also be incorporated as a prompt into EMIP and achieve more robust results with temporal consistency. Experimental results demonstrate that our EMIP achieves new state-of-the-art records on popular VCOD benchmarks. Our code is made publicly available at https://github.com/zhangxin06/EMIP.
- Abstract(参考訳): カモフラージュは静的な標的の識別に挑戦するが、標的の動きはこの変装を破る可能性がある。
既存のビデオカモフラージュオブジェクト検出(VCOD)アプローチは、複雑なダイナミックシーンにおける検出性能を制限するために、入力やモデルの動きとしてノイズのある動きを暗黙的に推定する。
本稿では,フリーズされた光フロー基本モデルを用いて,動作キューを明示的に処理するEMIPという,VCODのための新しい明示型モーションハンドリングおよび対話型プロンプティングフレームワークを提案する。
EMIPは、カモフラージュされたセグメンテーションと光フロー推定を同時に行う2ストリームアーキテクチャによって特徴付けられる。
デュアルストリーム間のインタラクションは、新たな視覚的即興学習にインスパイアされた、インタラクティブなプロンプト方法で実現される。
2つの学習可能なモジュール、すなわちカモフラージュフィードとモーションコレクタは、それぞれセグメンテーション・トゥ・モーション・トゥ・セグメンテーション・プロンプトを組み込んで、両方のストリームの出力を強化するように設計されている。
モーションストリームに供給されるプロンプトは、自己教師された方法で光の流れを監視することによって学習される。
さらに, 長期的履歴情報をEMIPのプロンプトとして組み込んで, 時間的整合性を持たせることで, より堅牢な結果が得られることを示す。
実験結果から、私たちのEMIPは、一般的なVCODベンチマーク上で、最先端の新たな記録を達成できることが示されている。
私たちのコードはhttps://github.com/zhangxin06/EMIP.comで公開されています。
関連論文リスト
- C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - Generalizable Implicit Motion Modeling for Video Frame Interpolation [51.966062283735596]
フローベースビデオフレーム補間(VFI)における動きの重要性
本稿では,動きモデリングVFIの新規かつ効果的なアプローチである一般インプリシット・モーション・モデリング(IMM)を紹介する。
我々のGIMMは、正確にモデル化された動きを供給することによって、既存のフローベースVFIワークと容易に統合できる。
論文 参考訳(メタデータ) (2024-07-11T17:13:15Z) - Animate Your Motion: Turning Still Images into Dynamic Videos [58.63109848837741]
本稿では,マルチモーダル入力を管理する新しい手法であるScene and Motion Conditional Diffusion (SMCD)を紹介する。
SMCDは、認識されたモーションコンディショニングモジュールを組み込み、シーン条件を統合するための様々なアプローチを調査する。
我々のデザインは映像の品質、動きの精度、セマンティック・コヒーレンスを大幅に向上させる。
論文 参考訳(メタデータ) (2024-03-15T10:36:24Z) - Out of the Room: Generalizing Event-Based Dynamic Motion Segmentation
for Complex Scenes [10.936350433952668]
モーションセグメンテーション(Motion segmentation)とも呼ばれる動的シーン部品の迅速かつ信頼性の高い識別は、モバイルセンサーにとって重要な課題である。
イベントカメラはこれらの制限を克服する可能性があるが、それに対応する方法は小規模の屋内環境でのみ実証されている。
本研究は,複雑な大規模屋外環境にも展開可能な,クラスに依存しない動作セグメンテーションのイベントベース手法を提案する。
論文 参考訳(メタデータ) (2024-03-07T14:59:34Z) - ProgressiveMotionSeg: Mutually Reinforced Framework for Event-Based
Motion Segmentation [101.19290845597918]
本稿では,動作推定 (ME) モジュールとイベントデノイング (ED) モジュールを相互に強化された方法で共同最適化する。
時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。
論文 参考訳(メタデータ) (2022-03-22T13:40:26Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。