論文の概要: Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
- arxiv url: http://arxiv.org/abs/2409.16902v3
- Date: Wed, 02 Apr 2025 09:15:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:17:07.788706
- Title: Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
- Title(参考訳): 水中カモフラージュした物体の追跡に視界を照らすSAM2
- Authors: Chunhui Zhang, Li Liu, Guanjie Huang, Zhipeng Zhang, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang,
- Abstract要約: 本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。
提案したデータセットに基づいて、本研究はまず、水中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
- 参考スコア(独自算出の注目度): 60.47622353256502
- License:
- Abstract: Over the past decade, significant progress has been made in visual object tracking, largely due to the availability of large-scale datasets. However, these datasets have primarily focused on open-air scenarios and have largely overlooked underwater animal tracking-especially the complex challenges posed by camouflaged marine animals. To bridge this gap, we take a step forward by proposing the first large-scale multi-modal underwater camouflaged object tracking dataset, namely UW-COT220. Based on the proposed dataset, this work first comprehensively evaluates current advanced visual object tracking methods, including SAM- and SAM2-based trackers, in challenging underwater environments, \eg, coral reefs. Our findings highlight the improvements of SAM2 over SAM, demonstrating its enhanced ability to handle the complexities of underwater camouflaged objects. Furthermore, we propose a novel vision-language tracking framework called VL-SAM2, based on the video foundation model SAM2. Experimental results demonstrate that our VL-SAM2 achieves state-of-the-art performance on the UW-COT220 dataset. The dataset and codes are available at~\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{\color{magenta}{here}}.
- Abstract(参考訳): 過去10年間で、大規模なデータセットが利用可能になったために、視覚オブジェクトのトラッキングが大幅に進歩した。
しかし、これらのデータセットは主に屋外のシナリオに焦点を当てており、特にカモフラージュした海洋動物によって引き起こされる複雑な課題を主に見落としている。
このギャップを埋めるために、我々は、UW-COT220という大規模な水中カモフラージュ物体追跡データセットを初めて提案する。
提案したデータセットに基づいて、本研究はまず、サンゴ礁の海中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を包括的に評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
さらに,ビデオ基盤モデルSAM2に基づくVL-SAM2という新しい視覚言語追跡フレームワークを提案する。
実験の結果,VL-SAM2はUW-COT220データセット上で最先端の性能を達成できた。
データセットとコードは~\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{\color{magenta}{here}}で公開されている。
関連論文リスト
- ZISVFM: Zero-Shot Object Instance Segmentation in Indoor Robotic Environments with Vision Foundation Models [10.858627659431928]
サービスロボットは、機能を強化するために、未知のオブジェクトを効果的に認識し、セグメント化する必要がある。
従来の教師付き学習ベースのセグメンテーション技術は、広範な注釈付きデータセットを必要とする。
本稿では,セグメンテーションアプライスモデル (SAM) の強力なゼロショット能力と,自己監督型視覚変換器 (ViT) からの明示的な視覚表現を活用することで,UOISを解く新しいアプローチ (ZISVFM) を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:22:20Z) - When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation [36.174458990817165]
本研究では,ビデオキャモフラージュオブジェクトセグメンテーション(VCOS)におけるSegment Anything Model 2(SAM2)の適用と性能について検討する。
VCOSは、似たような色やテクスチャ、照明条件の悪さなどにより、ビデオの周囲にシームレスにブレンドされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2024-09-27T11:35:50Z) - Adapting Segment Anything Model for Unseen Object Instance Segmentation [70.60171342436092]
Unseen Object Instance(UOIS)は、非構造環境で動作する自律ロボットにとって不可欠である。
UOISタスクのためのデータ効率のよいソリューションであるUOIS-SAMを提案する。
UOIS-SAMは、(i)HeatmapベースのPrompt Generator(HPG)と(ii)SAMのマスクデコーダに適応する階層識別ネットワーク(HDNet)の2つの重要なコンポーネントを統合する。
論文 参考訳(メタデータ) (2024-09-23T19:05:50Z) - Camouflaged Object Tracking: A Benchmark [16.07670491479613]
カモフラージュされたオブジェクト追跡手法を評価するためのベンチマークであるCOTD(Camouflaged Object Tracking dataset)を導入する。
COTDは200のシーケンスと約80,000のフレームで構成され、それぞれに詳細なバウンディングボックスが付加されている。
既存の20個の追跡アルゴリズムを評価した結果,カモフラージュした物体を用いた場合,その性能に重大な欠陥があることが判明した。
本稿では,新しいトラッキングフレームワーク HiPTrack-MLS を提案する。
論文 参考訳(メタデータ) (2024-08-25T15:56:33Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.52569822945148]
濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。
BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。
トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
論文 参考訳(メタデータ) (2023-02-21T13:02:36Z) - End-to-end Tracking with a Multi-query Transformer [96.13468602635082]
マルチオブジェクトトラッキング(MOT)は、時間とともにシーン内のオブジェクトの位置、外観、アイデンティティを同時に推論する必要がある課題である。
本研究の目的は、トラッキング・バイ・ディテクト・アプローチを超えて、未知のオブジェクト・クラスに対してもよく機能するクラスに依存しないトラッキングへと移行することである。
論文 参考訳(メタデータ) (2022-10-26T10:19:37Z) - Visual Tracking by TridentAlign and Context Embedding [71.60159881028432]
本稿では,Siamese ネットワークに基づく視覚的トラッキングのための新しい TridentAlign とコンテキスト埋め込みモジュールを提案する。
提案トラッカーの性能は最先端トラッカーに匹敵するが,提案トラッカーはリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2020-07-14T08:00:26Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。