論文の概要: MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection
- arxiv url: http://arxiv.org/abs/2502.13859v1
- Date: Wed, 19 Feb 2025 16:27:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-20 13:59:45.008481
- Title: MSVCOD:A Large-Scale Multi-Scene Dataset for Video Camouflage Object Detection
- Title(参考訳): MSVCOD:ビデオカモフラージュ物体検出のための大規模マルチシーンデータセット
- Authors: Shuyong Gao, Yu'ang Feng, Qishan Wang, Lingyi Hong, Xinyu Zhou, Liu Fei, Yan Wang, Wenqiang Zhang,
- Abstract要約: Video Camouflaged Object Detection (VCOD)は、ビデオの背景にシームレスに隠されたオブジェクトを特定することを目的とした、難しいタスクである。
我々は,新しい大規模マルチドメインVCODデータセットMSVCODを構築した。
私たちのMSVCODは、これまでで最大のVCODデータセットであり、人間、動物、医療、自動車などの複数のカテゴリーを導入しました。
本フレームワークは,既存のVCOD動物データセットと提案したMSVCODの最先端結果を実現する。
- 参考スコア(独自算出の注目度): 23.59587900985667
- License:
- Abstract: Video Camouflaged Object Detection (VCOD) is a challenging task which aims to identify objects that seamlessly concealed within the background in videos. The dynamic properties of video enable detection of camouflaged objects through motion cues or varied perspectives. Previous VCOD datasets primarily contain animal objects, limiting the scope of research to wildlife scenarios. However, the applications of VCOD extend beyond wildlife and have significant implications in security, art, and medical fields. Addressing this problem, we construct a new large-scale multi-domain VCOD dataset MSVCOD. To achieve high-quality annotations, we design a semi-automatic iterative annotation pipeline that reduces costs while maintaining annotation accuracy. Our MSVCOD is the largest VCOD dataset to date, introducing multiple object categories including human, animal, medical, and vehicle objects for the first time, while also expanding background diversity across various environments. This expanded scope increases the practical applicability of the VCOD task in camouflaged object detection. Alongside this dataset, we introduce a one-steam video camouflage object detection model that performs both feature extraction and information fusion without additional motion feature fusion modules. Our framework achieves state-of-the-art results on the existing VCOD animal dataset and the proposed MSVCOD. The dataset and code will be made publicly available.
- Abstract(参考訳): Video Camouflaged Object Detection (VCOD)は、ビデオの背景にシームレスに隠されたオブジェクトを特定することを目的とした、難しいタスクである。
動画のダイナミックな特性は、動きの手がかりや様々な視点を通してカモフラージュされた物体を検出できる。
以前のVCODデータセットは、主に動物オブジェクトを含んでおり、研究の範囲を野生生物のシナリオに制限している。
しかし、VCODの応用は野生生物を超えて広がり、セキュリティ、芸術、医療分野に重大な影響を及ぼす。
この問題に対処するため、我々は新しい大規模マルチドメインVCODデータセットMSVCODを構築した。
高品質なアノテーションを実現するために,アノテーションの精度を維持しつつコストを削減する半自動反復型アノテーションパイプラインを設計する。
私たちのMSVCODデータセットは、これまでで最大のVCODデータセットで、人間、動物、医療、自動車など複数のカテゴリーを初めて導入し、背景の多様性を様々な環境に広げています。
この拡張範囲は、キャモフラージュされたオブジェクト検出におけるVCODタスクの実用性を高める。
このデータセットと並行して,機能抽出と情報融合の両方を行うワンスチームビデオカモフラージュオブジェクト検出モデルを導入する。
本フレームワークは,既存のVCOD動物データセットと提案したMSVCODの最先端結果を実現する。
データセットとコードは公開されます。
関連論文リスト
- Green Video Camouflaged Object Detection [28.528114525671025]
時間情報を扱うグリーンVCOD法を提案する。
GreenVCODはグリーンICOD法に基づいており、長期と短期の時間的地区を用いて、共同空間・時間的文脈情報をキャプチャする。
実験結果から,GreenVCODは最先端VCODベンチマークと比較して,競争性能が向上していることがわかった。
論文 参考訳(メタデータ) (2025-01-19T01:42:00Z) - Unconstrained Salient and Camouflaged Object Detection [4.698538612738126]
制約なし塩分とカモフラーゲ型オブジェクト検出 (USCOD) というベンチマークを導入する。
USCODは、その存在に関係なく、制約のないシーンで、塩分とカモフラージュされた物体の同時検出をサポートする。
この課題に対処するため,USCODのベースラインモデルであるUSCNetを提案する。
論文 参考訳(メタデータ) (2024-12-14T19:37:17Z) - FADE: A Dataset for Detecting Falling Objects around Buildings in Video [75.48118923174712]
建物から落下する物体は、大きな衝撃力によって歩行者に重傷を負わせる可能性がある。
FADEには18のシーンから1,881本のビデオがあり、8つの落下物カテゴリー、4つの気象条件、4つのビデオ解像度がある。
動作情報を効果的に活用するFADE-Netと呼ばれる新しい物体検出手法を開発した。
論文 参考訳(メタデータ) (2024-08-11T11:43:56Z) - Camouflaged Image Synthesis Is All You Need to Boost Camouflaged
Detection [65.8867003376637]
本研究では,カモフラージュデータの合成フレームワークを提案する。
提案手法では,既存の物体検出モデルのトレーニングに使用可能な,現実的なカモフラージュ画像の生成に生成モデルを用いる。
我々のフレームワークは3つのデータセット上で最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-08-13T06:55:05Z) - Camouflaged Object Detection with Feature Grafting and Distractor Aware [9.791590363932519]
そこで我々は,Camouflaged Object Detectionタスクを処理するために,FDNet(Feature Grafting and Distractor Aware Network)を提案する。
具体的には、CNNとTransformerを使ってマルチスケール画像を並列にエンコードする。
Distractor Aware Moduleは、CODタスクで考えられる2つの障害を明示的にモデル化して、粗いカモフラージュマップを洗練させるように設計されている。
論文 参考訳(メタデータ) (2023-07-08T09:37:08Z) - CamDiff: Camouflage Image Augmentation via Diffusion Model [83.35960536063857]
CamDiffは、カモフラージュされたシーンで透明なオブジェクトを合成するための新しいアプローチだ。
我々は,潜伏拡散モデルを用いて,カモフラージュされたシーンで有能な物体を合成する。
当社のアプローチでは、フレキシブルな編集と大規模データセットの効率的な生成を低コストで実現している。
論文 参考訳(メタデータ) (2023-04-11T19:37:47Z) - MFFN: Multi-view Feature Fusion Network for Camouflaged Object Detection [10.04773536815808]
画像中の不明瞭な物体を見つける人間の振る舞いを模倣する,Multi-view Feature Fusion Network (MFFN) と呼ばれる行動に触発されたフレームワークを提案する。
MFFNは抽出したマルチビュー特徴を比較し、融合することにより、重要なエッジとセマンティック情報をキャプチャする。
提案手法は,同一データを用いたトレーニングにより,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2022-10-12T16:12:58Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - ASOD60K: Audio-Induced Salient Object Detection in Panoramic Videos [79.05486554647918]
本研究では,パノラマビデオから有能な物体を分離する新しいタスクであるPV-SODを提案する。
既存の固定レベルやオブジェクトレベルの塩分濃度検出タスクとは対照的に,多モードの塩分濃度検出(SOD)に焦点を当てる。
AsOD60Kという,6レベル階層の4K解像度ビデオフレームを含む,最初の大規模データセットを収集する。
論文 参考訳(メタデータ) (2021-07-24T15:14:20Z) - Concealed Object Detection [140.98738087261887]
隠蔽物体検出(COD)に関する最初の体系的研究を紹介します。
CODは、背景に「完全に」埋め込まれているオブジェクトを特定することを目指しています。
このタスクをより理解するために、cod10kと呼ばれる大規模なデータセットを収集します。
論文 参考訳(メタデータ) (2021-02-20T06:49:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。