論文の概要: MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method
- arxiv url: http://arxiv.org/abs/2602.18006v1
- Date: Fri, 20 Feb 2026 05:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.240317
- Title: MUOT_3M: A 3 Million Frame Multimodal Underwater Benchmark and the MUTrack Tracking Method
- Title(参考訳): MUOT_3M:Mutrack Tracking法と300万フレームマルチモーダル水中ベンチマーク
- Authors: Ahsan Baidar Bakht, Mohamad Alansari, Muhayy Ud Din, Muzammal Naseer, Sajid Javed, Irfan Hussain, Jiri Matas, Arif Mahmood,
- Abstract要約: 水中物体追跡(UOT)は、効率的な海洋ロボティクス、大規模な生態モニタリング、海洋探査に不可欠である。
既存のベンチマークは小さく、RGBのみであり、厳密な色歪み、濁度、視界の低い条件下での堅牢性を制限する。
MUOT_3Mは,32のトラッキング属性,677のきめ細かいクラス,同期RGBを付加した3,030ビデオ(27.8h)の300万フレームからなる,最初の擬似マルチモーダル UOT ベンチマークである。
MUTrack, SAM-based multimodal to unimodal trackerを提案する。
- 参考スコア(独自算出の注目度): 49.121704780656366
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Underwater Object Tracking (UOT) is crucial for efficient marine robotics, large scale ecological monitoring, and ocean exploration; however, progress has been hindered by the scarcity of large, multimodal, and diverse datasets. Existing benchmarks remain small and RGB only, limiting robustness under severe color distortion, turbidity, and low visibility conditions. We introduce MUOT_3M, the first pseudo multimodal UOT benchmark comprising 3 million frames from 3,030 videos (27.8h) annotated with 32 tracking attributes, 677 fine grained classes, and synchronized RGB, estimated enhanced RGB, estimated depth, and language modalities validated by a marine biologist. Building upon MUOT_3M, we propose MUTrack, a SAM-based multimodal to unimodal tracker featuring visual geometric alignment, vision language fusion, and four level knowledge distillation that transfers multimodal knowledge into a unimodal student model. Extensive evaluations across five UOT benchmarks demonstrate that MUTrack achieves up to 8.40% higher AUC and 7.80% higher precision than the strongest SOTA baselines while running at 24 FPS. MUOT_3M and MUTrack establish a new foundation for scalable, multimodally trained yet practically deployable underwater tracking.
- Abstract(参考訳): 水中物体追跡(UOT)は、効率的な海洋ロボット工学、大規模な生態モニタリング、海洋探査において重要であるが、大規模でマルチモーダルで多様なデータセットの不足によって進歩が妨げられている。
既存のベンチマークは小さく、RGBのみであり、厳密な色歪み、濁度、視界の低い条件下での堅牢性を制限する。
MUOT_3Mは3,030ビデオ(27.8h)の300万フレームに32のトラッキング属性,677の粒度クラス,同期RGB,推定RGB,推定深さ,および海洋生物学者が検証した言語モダリティを付加した最初の擬似マルチモーダルUOTベンチマークである。
MUOT_3M 上に構築した MUTrack は,視覚幾何学的アライメント,視覚言語融合,マルチモーダル知識を学生モデルに伝達する4段階の知識蒸留を特徴とする,SAM ベースのマルチモーダル・ユニモーダルトラッカーである。
5つのUOTベンチマークによる大規模な評価では、MUTrackは24FPSで実行中に最強のSOTAベースラインよりも最大8.40%高いAUCと7.80%高い精度で達成されている。
MUOT_3MとMUTrackは、スケーラブルでマルチモーダルで訓練され、実質的に展開可能な水中追跡のための新しい基盤を確立する。
関連論文リスト
- UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking [40.8191099453086]
UBATrackと呼ばれる,マンバスタイルの状態に基づく新しいマルチモーダルトラッキングフレームワークを提案する。
UBATrack は S-temporal Mamba Adapter (MA) と Dynamic Multi-modal Feature Mixer の2つの単純かつ効果的な作業空間から構成されている。
実験により、UBATrackはRGB-T、RGB-D、RGB-E追跡ベンチマークにおいて最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2026-01-21T09:24:19Z) - MMOT: The First Challenging Benchmark for Drone-based Multispectral Multi-Object Tracking [30.3437683353074]
MMOTは、ドローンベースのマルチスペクトルマルチオブジェクトトラッキングのための最初のベンチマークである。
125の動画シーケンスと8つのカテゴリにわたる488.8Kアノテーションがある。
スペクトル特徴の抽出と指向アノテーションの活用のために,マルチスペクトルおよび指向性を考慮したMOT方式を提案する。
論文 参考訳(メタデータ) (2025-10-14T14:25:17Z) - Collaborating Vision, Depth, and Thermal Signals for Multi-Modal Tracking: Dataset and Algorithm [103.36490810025752]
既存のマルチモーダルオブジェクト追跡アプローチは、主にRGB-DepthやRGB-Thermalのようなデュアルモーダルパラダイムに焦点を当てている。
本研究は、可視RGB、深度(D)、熱赤外(TIR)を含む3つの相補的なモードを利用する、新しいマルチモーダルトラッキングタスクを導入する。
我々はRDTTrackと呼ばれる新しいマルチモーダルトラッカーを提案する。これは、事前訓練されたRGBのみのトラッカーモデルを活用することで、ロバストトラッカーのためのトリモーダル情報を統合する。
論文 参考訳(メタデータ) (2025-09-29T13:05:15Z) - Awesome Multi-modal Object Tracking [41.76977058932557]
マルチモーダルオブジェクトトラッキング(MMOT)は、様々なモダリティからのデータを組み合わせて、ビデオシーケンス中の任意のオブジェクトの状態を推定する新興分野である。
本報告では,MMOTの最近の進歩を追究するために,包括的調査を行う。
論文 参考訳(メタデータ) (2024-05-23T05:58:10Z) - ReIDTracker Sea: the technical report of BoaTrack and SeaDronesSee-MOT
challenge at MaCVi of WACV24 [0.0]
我々のソリューションは、無人航空機(UAV)と無人表面車両(USV)の利用シナリオにおける多目的追跡の探索を試みる。
この方式は、UAVベースのマルチオブジェクト追跡とUSVベースのマルチオブジェクト追跡ベンチマークの両方でトップ3のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-12T07:37:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。