論文の概要: Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
- arxiv url: http://arxiv.org/abs/2409.16902v4
- Date: Mon, 28 Apr 2025 22:11:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 20:17:25.542179
- Title: Underwater Camouflaged Object Tracking Meets Vision-Language SAM2
- Title(参考訳): 水中カモフラージュした物体の追跡に視界を照らすSAM2
- Authors: Chunhui Zhang, Li Liu, Guanjie Huang, Zhipeng Zhang, Hao Wen, Xi Zhou, Shiming Ge, Yanfeng Wang,
- Abstract要約: 本研究は,UW-COT220という大規模水中カモフラージュ型物体追跡データセットを提案する。
提案したデータセットに基づいて、本研究はまず、水中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
- 参考スコア(独自算出の注目度): 60.47622353256502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Over the past decade, significant progress has been made in visual object tracking, largely due to the availability of large-scale datasets. However, these datasets have primarily focused on open-air scenarios and have largely overlooked underwater animal tracking-especially the complex challenges posed by camouflaged marine animals. To bridge this gap, we take a step forward by proposing the first large-scale multi-modal underwater camouflaged object tracking dataset, namely UW-COT220. Based on the proposed dataset, this work first comprehensively evaluates current advanced visual object tracking methods, including SAM- and SAM2-based trackers, in challenging underwater environments, \eg, coral reefs. Our findings highlight the improvements of SAM2 over SAM, demonstrating its enhanced ability to handle the complexities of underwater camouflaged objects. Furthermore, we propose a novel vision-language tracking framework called VL-SAM2, based on the video foundation model SAM2. Experimental results demonstrate that our VL-SAM2 achieves state-of-the-art performance on the UW-COT220 dataset. The dataset and codes are available at~\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{\color{magenta}{here}}.
- Abstract(参考訳): 過去10年間で、大規模なデータセットが利用可能になったために、視覚オブジェクトのトラッキングが大幅に進歩した。
しかし、これらのデータセットは主に屋外のシナリオに焦点を当てており、特にカモフラージュした海洋動物によって引き起こされる複雑な課題を主に見落としている。
このギャップを埋めるために、我々は、UW-COT220という大規模な水中カモフラージュ物体追跡データセットを初めて提案する。
提案したデータセットに基づいて、本研究はまず、サンゴ礁の海中環境に挑戦するSAMとSAM2ベースのトラッカーを含む、現在の高度な視覚オブジェクト追跡手法を包括的に評価する。
本研究はSAM2よりもSAM2を改良し,水中カモフラージュ物体の複雑度を処理できることを実証した。
さらに,ビデオ基盤モデルSAM2に基づくVL-SAM2という新しい視覚言語追跡フレームワークを提案する。
実験の結果,VL-SAM2はUW-COT220データセット上で最先端の性能を達成できた。
データセットとコードは~\href{https://github.com/983632847/Awesome-Multimodal-Object-Tracking}{\color{magenta}{here}}で公開されている。
関連論文リスト
- CamSAM2: Segment Anything Accurately in Camouflaged Videos [37.0152845263844]
本研究では,Camouflaged SAM2 (CamSAM2) を提案する。
現在のフレームと以前のフレームの細粒度と高解像度機能をフル活用するために,暗黙的オブジェクト認識融合 (IOF) と明示的オブジェクト認識融合 (EOF) モジュールを提案する。
CamSAM2はSAM2に無視可能な学習可能なパラメータのみを追加するが、3つのVCOSデータセットでSAM2を大幅に上回っている。
論文 参考訳(メタデータ) (2025-03-25T14:58:52Z) - When SAM2 Meets Video Camouflaged Object Segmentation: A Comprehensive Evaluation and Adaptation [36.174458990817165]
本研究では,ビデオキャモフラージュオブジェクトセグメンテーション(VCOS)におけるSegment Anything Model 2(SAM2)の適用と性能について検討する。
VCOSは、似たような色やテクスチャ、照明条件の悪さなどにより、ビデオの周囲にシームレスにブレンドされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2024-09-27T11:35:50Z) - Camouflaged Object Tracking: A Benchmark [16.07670491479613]
カモフラージュされたオブジェクト追跡手法を評価するためのベンチマークであるCOTD(Camouflaged Object Tracking dataset)を導入する。
COTDは200のシーケンスと約80,000のフレームで構成され、それぞれに詳細なバウンディングボックスが付加されている。
既存の20個の追跡アルゴリズムを評価した結果,カモフラージュした物体を用いた場合,その性能に重大な欠陥があることが判明した。
本稿では,新しいトラッキングフレームワーク HiPTrack-MLS を提案する。
論文 参考訳(メタデータ) (2024-08-25T15:56:33Z) - Video Object Segmentation via SAM 2: The 4th Solution for LSVOS Challenge VOS Track [28.52754012142431]
Segment Anything Model 2 (SAM2) は、画像やビデオにおける迅速な視覚的セグメンテーションを解決するための基礎モデルである。
SAM 2は、ユーザインタラクションを通じてモデルとデータを改善するデータエンジンを構築し、これまでで最大のビデオセグメンテーションデータセットを収集している。
訓練セットを微調整することなく、SAM 2はテストセットで75.79 J&Fを獲得し、第6回LSVOSチャレンジVOSトラックでは4位となった。
論文 参考訳(メタデータ) (2024-08-19T16:13:14Z) - Evaluation of Segment Anything Model 2: The Role of SAM2 in the Underwater Environment [2.0554501265326794]
Segment Anything Model(SAM)とその拡張は、海洋科学における様々な水中可視化タスクに応用するために試みられている。
近年,Segment Anything Model 2 (SAM2) が開発され,実行速度とセグメンテーション精度が大幅に向上した。
本報告は, 海洋科学におけるSAM2の可能性について, UIIS と USIS10K をベンチマークした水中インスタンスセグメンテーションデータセットを用いて検討することを目的とする。
論文 参考訳(メタデータ) (2024-08-06T03:20:10Z) - MAS-SAM: Segment Any Marine Animal with Aggregated Features [55.91291540810978]
そこで本研究では,海洋生物のセグメンテーションのためのMAS-SAMという新しい特徴学習フレームワークを提案する。
本手法により,グローバルな文脈的手がかりからよりリッチな海洋情報を抽出し,よりきめ細かな局部的詳細を抽出できる。
論文 参考訳(メタデータ) (2024-04-24T07:38:14Z) - Moving Object Segmentation: All You Need Is SAM (and Flow) [82.78026782967959]
SAMのセグメンテーション能力と移動物体の発見・グループ化能力を利用する光フローとSAMを組み合わせた2つのモデルについて検討する。
第1のモデルでは、RGBではなく光の流れを入力としてSAMに適応させ、第2のモデルではRGBを入力として、フローをセグメント化プロンプトとして使用する。
これらの驚くほど単純な方法は、追加の修正なしに、シングルオブジェクトとマルチオブジェクトのベンチマークにおいて、以前のアプローチをかなり上回っている。
論文 参考訳(メタデータ) (2024-04-18T17:59:53Z) - Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM [62.85895749882285]
海洋動物(英: Marine Animal、MAS)は、海洋環境に生息する動物を分類する動物である。
高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。
提案手法は,広く使用されている5つのMASデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-07T15:34:40Z) - Improving Underwater Visual Tracking With a Large Scale Dataset and
Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。
水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。
本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。
この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文 参考訳(メタデータ) (2023-08-30T07:41:26Z) - BrackishMOT: The Brackish Multi-Object Tracking Dataset [20.52569822945148]
濁った環境で捕獲された水中マルチオブジェクト追跡(MOT)データセットは公開されていない。
BrackishMOTは、野生で捕獲された98のシークエンスから構成される。新しいデータセットに加えて、最先端のトラッカーをトレーニングしてベースライン結果を示す。
トレーニング中に合成データを含めることの効果を分析し,実際の水中トレーニングデータと合成水中トレーニングデータを組み合わせることで,追跡性能が向上することを示した。
論文 参考訳(メタデータ) (2023-02-21T13:02:36Z) - AVisT: A Benchmark for Visual Object Tracking in Adverse Visibility [125.77396380698639]
AVisTは、視認性の悪いさまざまなシナリオにおける視覚的トラッキングのためのベンチマークである。
AVisTは、80kの注釈付きフレームを持つ120の挑戦的なシーケンスで構成されており、18の多様なシナリオにまたがっている。
我々は、属性間でのトラッキング性能を詳細に分析し、AVisTで17の人気のトラッカーと最近のトラッカーをベンチマークした。
論文 参考訳(メタデータ) (2022-08-14T17:49:37Z) - SVAM: Saliency-guided Visual Attention Modeling by Autonomous Underwater
Robots [16.242924916178282]
本稿では,自律型水中ロボットの視覚的注意モデル(SVAM)に対する総合的なアプローチを提案する。
提案するSVAM-Netは,様々なスケールの深部視覚的特徴を統合し,自然水中画像に有効なSOD(Salient Object Detection)を実現する。
論文 参考訳(メタデータ) (2020-11-12T08:17:21Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。