論文の概要: Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos
- arxiv url: http://arxiv.org/abs/2503.17050v1
- Date: Fri, 21 Mar 2025 11:08:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:56:41.203770
- Title: Scoring, Remember, and Reference: Catching Camouflaged Objects in Videos
- Title(参考訳): カモフラージュした物体を動画で撮影する「Scoring, remember, and Reference」
- Authors: Yuang Feng, Shuyong Gao, Fuzhen Yan, Yicheng Song, Lingyi Hong, Junjie Hu, Wenqiang Zhang,
- Abstract要約: Video Camouflaged Object Detectionは、外見が周囲によく似ているオブジェクトを分割することを目的としている。
既存の視覚モデルは、カモフラージュされた物体の識別不可能な外観のために、このようなシナリオでしばしば苦労する。
人間の記憶認識にインスパイアされたエンドツーエンドのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 24.03405963900272
- License:
- Abstract: Video Camouflaged Object Detection (VCOD) aims to segment objects whose appearances closely resemble their surroundings, posing a challenging and emerging task. Existing vision models often struggle in such scenarios due to the indistinguishable appearance of camouflaged objects and the insufficient exploitation of dynamic information in videos. To address these challenges, we propose an end-to-end VCOD framework inspired by human memory-recognition, which leverages historical video information by integrating memory reference frames for camouflaged sequence processing. Specifically, we design a dual-purpose decoder that simultaneously generates predicted masks and scores, enabling reference frame selection based on scores while introducing auxiliary supervision to enhance feature extraction.Furthermore, this study introduces a novel reference-guided multilevel asymmetric attention mechanism, effectively integrating long-term reference information with short-term motion cues for comprehensive feature extraction. By combining these modules, we develop the Scoring, Remember, and Reference (SRR) framework, which efficiently extracts information to locate targets and employs memory guidance to improve subsequent processing. With its optimized module design and effective utilization of video data, our model achieves significant performance improvements, surpassing existing approaches by 10% on benchmark datasets while requiring fewer parameters (54M) and only a single pass through the video. The code will be made publicly available.
- Abstract(参考訳): Video Camouflaged Object Detection (VCOD) は、外見が周囲によく似ているオブジェクトを分割することを目的としており、挑戦的で新しいタスクを呈している。
既存の視覚モデルは、カモフラージュされた物体の識別不能な出現と、ビデオにおける動的情報の不十分な利用のために、このようなシナリオでしばしば苦労する。
これらの課題に対処するために,人間の記憶認識にインスパイアされたエンドツーエンドVCODフレームワークを提案する。
具体的には、予測マスクとスコアを同時に生成し、スコアに基づいて参照フレームの選択を可能にする2目的デコーダを設計し、特徴抽出を補助的に導入し、特徴抽出を強化するとともに、新しい参照誘導多レベル非対称アテンション機構を導入し、長期参照情報を包括的特徴抽出のために効果的に統合する。
これらのモジュールを組み合わせることで、Scoring, Remember, and Reference (SRR) フレームワークを開発し、ターゲットを特定するための情報を効率的に抽出し、メモリガイダンスを用いてその後の処理を改善する。
最適化されたモジュール設計とビデオデータの有効利用により、我々のモデルは、ベンチマークデータセット上で既存のアプローチを10%上回り、パラメータは少なく(54M)、動画を1回しか通過しないという、大幅なパフォーマンス向上を実現している。
コードは公開されます。
関連論文リスト
- Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - TAM-VT: Transformation-Aware Multi-scale Video Transformer for Segmentation and Tracking [33.75267864844047]
ビデオオブジェクト(VOS)は、より大きなデータセットとより複雑で現実的な設定が利用できるという、ますます重要な問題として現れています。
本稿では,上記の課題を体系的に分析し,対処することを目的とした,クリップ型DETR方式のエンコーダデコーダアーキテクチャを提案する。
具体的には、物体が大きな変形を受ける映像の一部に学習を集中させる新しい変換認識損失を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:02:03Z) - Joint Modeling of Feature, Correspondence, and a Compressed Memory for
Video Object Segmentation [52.11279360934703]
現在のビデオオブジェクト(VOS)メソッドは通常、特徴抽出後のカレントフレームと参照フレームの密マッチングを実行する。
本稿では,特徴量,対応性,圧縮メモリの3要素を共同モデリングするための統合VOSフレームワークであるJointFormerを提案する。
論文 参考訳(メタデータ) (2023-08-25T17:30:08Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - A Generic Object Re-identification System for Short Videos [39.662850217144964]
オブジェクト検出モジュールにはTIFN(Temporal Information Fusion Network)が提案されている。
The Cross-Layer Pointwise Siamese Network (CPSN) is proposed to enhance the robustness of the appearance model。
実世界のショートビデオを含む2つの課題データセットは、ビデオオブジェクトの軌跡抽出とジェネリックオブジェクトの再同定のために構築されている。
論文 参考訳(メタデータ) (2021-02-10T05:45:09Z) - Video Object Segmentation with Episodic Graph Memory Networks [198.74780033475724]
セグメント化モデルを更新する学習」という新しいアイデアに対処するために,グラフメモリネットワークが開発された。
我々は、完全に連結されたグラフとして構成されたエピソードメモリネットワークを利用して、フレームをノードとして保存し、エッジによってフレーム間の相関をキャプチャする。
提案したグラフメモリネットワークは、一発とゼロショットの両方のビデオオブジェクトセグメンテーションタスクをうまく一般化できる、巧妙だが原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2020-07-14T13:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。