論文の概要: Towards Underwater Camouflaged Object Tracking: Benchmark and Baselines
- arxiv url: http://arxiv.org/abs/2409.16902v2
- Date: Mon, 20 Jan 2025 13:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:17:59.165133
- Title: Towards Underwater Camouflaged Object Tracking: Benchmark and Baselines
- Title(参考訳): 水中カモフラージュオブジェクト追跡に向けて:ベンチマークとベースライン
- Authors: Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang,
- Abstract要約: 本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。
本稿では,水中環境における現在進行している視覚オブジェクト追跡手法とSAMおよびSAM2ベースのトラッカーについて検討する。
本稿では,ビデオ基盤モデルSAM2に基づく視覚言語追跡フレームワークVL-SAM2を提案する。
- 参考スコア(独自算出の注目度): 41.627959017482155
- License:
- Abstract: Over the past decade, significant progress has been made in visual object tracking, largely due to the availability of large-scale datasets. However, existing tracking datasets are primarily focused on open-air scenarios, which greatly limits the development of object tracking in underwater environments. To bridge this gap, we take a step forward by proposing the first large-scale multimodal underwater camouflaged object tracking dataset, namely UW-COT220. Based on the proposed dataset, this paper first comprehensively evaluates current advanced visual object tracking methods and SAM- and SAM2-based trackers in challenging underwater environments. Our findings highlight the improvements of SAM2 over SAM, demonstrating its enhanced ability to handle the complexities of underwater camouflaged objects. Furthermore, we propose a novel vision-language tracking framework called VL-SAM2, based on the video foundation model SAM2. Experimental results demonstrate that our VL-SAM2 achieves state-of-the-art performance on the UW-COT220 dataset. The dataset and codes can be accessible at \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}.
- Abstract(参考訳): 過去10年間で、大規模なデータセットが利用可能になったために、視覚オブジェクトのトラッキングが大幅に進歩した。
しかし、既存の追跡データセットは主に屋外シナリオに焦点を当てており、水中環境における物体追跡の開発を著しく制限している。
このギャップを埋めるため、我々はUW-COT220という大規模な水中カモフラージュ型物体追跡データセットを初めて提案する。
本論文は,提案したデータセットに基づいて,水中環境における現在進行している視覚的物体追跡手法とSAM-およびSAM2ベースのトラッカーを総合的に評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
さらに,ビデオ基盤モデルSAM2に基づくVL-SAM2という新しい視覚言語追跡フレームワークを提案する。
実験の結果,VL-SAM2はUW-COT220データセット上で最先端の性能を達成できた。
データセットとコードは \color{magenta}{https://github.com/983632847/Awesome-Multimodal-Object-Tracking} でアクセスできる。
関連論文リスト
- ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation [36.174458990817165]
本研究では,ビデオキャモフラージュオブジェクトセグメンテーション(VCOS)におけるSegment Anything Model 2(SAM2)の適用と性能について検討する。
VCOSは、似たような色やテクスチャ、照明条件の悪さなどにより、ビデオの周囲にシームレスにブレンドされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2024-09-27T11:35:50Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Camouflaged Object Tracking: A Benchmark [16.07670491479613]
カモフラージュされたオブジェクト追跡手法を評価するためのベンチマークであるCOTD(Camouflaged Object Tracking dataset)を導入する。
COTDは200のシーケンスと約80,000のフレームで構成され、それぞれに詳細なバウンディングボックスが付加されている。
既存の20個の追跡アルゴリズムを評価した結果,カモフラージュした物体を用いた場合,その性能に重大な欠陥があることが判明した。
本稿では,新しいトラッキングフレームワーク HiPTrack-MLS を提案する。
論文 参考訳(メタデータ) (2024-08-25T15:56:33Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.52569822945148]
濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。
BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。
トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
論文 参考訳(メタデータ) (2023-02-21T13:02:36Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。