論文の概要: Implicit Motion Handling for Video Camouflaged Object Detection
- arxiv url: http://arxiv.org/abs/2203.07363v2
- Date: Tue, 15 Mar 2022 13:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 10:38:44.753859
- Title: Implicit Motion Handling for Video Camouflaged Object Detection
- Title(参考訳): ビデオカモフラージュ物体検出のための入射運動ハンドリング
- Authors: Xuelian Cheng, Huan Xiong, Deng-Ping Fan, Yiran Zhong, Mehrtash
Harandi, Tom Drummond, Zongyuan Ge
- Abstract要約: 本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
- 参考スコア(独自算出の注目度): 60.98467179649398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new video camouflaged object detection (VCOD) framework that can
exploit both short-term dynamics and long-term temporal consistency to detect
camouflaged objects from video frames. An essential property of camouflaged
objects is that they usually exhibit patterns similar to the background and
thus make them hard to identify from still images. Therefore, effectively
handling temporal dynamics in videos becomes the key for the VCOD task as the
camouflaged objects will be noticeable when they move. However, current VCOD
methods often leverage homography or optical flows to represent motions, where
the detection error may accumulate from both the motion estimation error and
the segmentation error. On the other hand, our method unifies motion estimation
and object segmentation within a single optimization framework. Specifically,
we build a dense correlation volume to implicitly capture motions between
neighbouring frames and utilize the final segmentation supervision to optimize
the implicit motion estimation and segmentation jointly. Furthermore, to
enforce temporal consistency within a video sequence, we jointly utilize a
spatio-temporal transformer to refine the short-term predictions. Extensive
experiments on VCOD benchmarks demonstrate the architectural effectiveness of
our approach. We also provide a large-scale VCOD dataset named MoCA-Mask with
pixel-level handcrafted ground-truth masks and construct a comprehensive VCOD
benchmark with previous methods to facilitate research in this direction.
Dataset Link: https://xueliancheng.github.io/SLT-Net-project.
- Abstract(参考訳): 本稿では,ビデオフレームからカモフラージュされたオブジェクトを検出するために,短期的ダイナミクスと長期的時間的一貫性の両方を利用する新しいビデオカモフラーグオブジェクト検出(VCOD)フレームワークを提案する。
カモフラージュされた物体の本質的な性質は、通常、背景に類似したパターンを呈し、静止画から識別するのが難しくなることである。
したがって、動画の時間的ダイナミクスを効果的に扱うことがVCODタスクの鍵となる。
しかし、現在のvcod法は、運動推定誤差とセグメンテーション誤差の両方から検出誤差が累積される運動を表現するためにホモグラフィや光学フローを利用することが多い。
一方,提案手法では,単一の最適化フレームワーク内で運動推定と物体分割を統一する。
具体的には,隣接するフレーム間の動きを暗黙的に捉え,最終的なセグメンテーション監督を利用して暗黙的な動き推定とセグメンテーションを共同で最適化する。
さらに,ビデオシーケンス内の時間的一貫性を強制するために,時空間変換器を併用して短期予測を洗練させる。
VCODベンチマークに関する大規模な実験は、我々のアプローチのアーキテクチャの有効性を示している。
また,大規模なVCODデータセットである MoCA-Mask と,画素レベルの手作りグラウンドトルースマスクを提供し,従来手法による包括的なVCODベンチマークを構築し,この方向の研究を容易にする。
Dataset Link: https://xueliancheng.github.io/SLT-Net-project
関連論文リスト
- Explicit Motion Handling and Interactive Prompting for Video Camouflaged
Object Detection [23.059829327898818]
既存のビデオカモフラージュされた物体検出手法は、暗黙的に入力やモデルの動きとしてノイズのある動きを推定する。
本稿では,動作キューを明示的に処理する EMIP という,VCOD のための Explicit Motion Handing and Interactive Prompting framework を提案する。
EMIPは、カモフラージュされたセグメンテーションと光フロー推定を同時に行う2ストリームアーキテクチャによって特徴付けられる。
論文 参考訳(メタデータ) (2024-03-04T12:11:07Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Efficient Long-Short Temporal Attention Network for Unsupervised Video
Object Segmentation [23.645412918420906]
Unsupervised Video Object (VOS) は、事前知識のないビデオにおいて、一次前景オブジェクトの輪郭を識別することを目的としている。
従来の手法では空間的文脈を完全には用いておらず、リアルタイムにこの課題に取り組むことができない。
これにより,教師なしVOSタスクを包括的視点から,効率的な長短テンポラルアテンションネットワーク(LSTA)を開発することができる。
論文 参考訳(メタデータ) (2023-09-21T01:09:46Z) - Motion-inductive Self-supervised Object Discovery in Videos [99.35664705038728]
本稿では,連続的なRGBフレームの処理モデルを提案し,層状表現を用いて任意のフレーム間の光の流れを推定する。
3つの公開ビデオセグメンテーションデータセットにおいて,従来の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-01T08:38:28Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving
Cameras in the Wild [57.37891682117178]
本稿では,一対の光流からの高密度対応に基づく動画の高密度間接構造抽出手法を提案する。
不規則点軌道データを処理するために,新しいニューラルネットワークアーキテクチャを提案する。
MPIシンテルデータセットを用いた実験により,我々のシステムはより正確なカメラ軌道を生成することがわかった。
論文 参考訳(メタデータ) (2022-07-19T09:19:45Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Joint Detection and Tracking in Videos with Identification Features [36.55599286568541]
本稿では,ビデオ検出,追跡,再識別機能の最初の共同最適化を提案する。
提案手法はMOTの最先端に到達し,オンライントラッカーにおけるUA-DETRAC'18追跡課題のうち,第1位,第3位にランクインした。
論文 参考訳(メタデータ) (2020-05-21T21:06:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。