論文の概要: WebUOT-1M: Advancing Deep Underwater Object Tracking with A Million-Scale Benchmark
- arxiv url: http://arxiv.org/abs/2405.19818v1
- Date: Thu, 30 May 2024 08:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:18:46.730216
- Title: WebUOT-1M: Advancing Deep Underwater Object Tracking with A Million-Scale Benchmark
- Title(参考訳): WebUOT-1M: 数百万のベンチマークで深海オブジェクトの追跡を改善
- Authors: Chunhui Zhang, Li Liu, Guanjie Huang, Hao Wen, Xi Zhou, Yanfeng Wang,
- Abstract要約: WebUOT-1Mは、複雑で現実的な水中環境から得られた、これまでで最大のUOTベンチマークである。
408のターゲットカテゴリからフィルタリングされた1500のビデオクリップに11万のフレームがあり、そのほとんどが以前のUTTデータセットを上回っている。
WebUOT-1Mには、ビデオシーケンスのための言語プロンプトが含まれており、アプリケーション領域を拡大している。
- 参考スコア(独自算出の注目度): 41.627959017482155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater object tracking (UOT) is a foundational task for identifying and tracing submerged entities in underwater video sequences. However, current UOT datasets suffer from limitations in scale, diversity of target categories and scenarios covered, hindering the training and evaluation of modern tracking algorithms. To bridge this gap, we take the first step and introduce WebUOT-1M, \ie, the largest public UOT benchmark to date, sourced from complex and realistic underwater environments. It comprises 1.1 million frames across 1,500 video clips filtered from 408 target categories, largely surpassing previous UOT datasets, \eg, UVOT400. Through meticulous manual annotation and verification, we provide high-quality bounding boxes for underwater targets. Additionally, WebUOT-1M includes language prompts for video sequences, expanding its application areas, \eg, underwater vision-language tracking. Most existing trackers are tailored for open-air environments, leading to performance degradation when applied to UOT due to domain gaps. Retraining and fine-tuning these trackers are challenging due to sample imbalances and limited real-world underwater datasets. To tackle these challenges, we propose a novel omni-knowledge distillation framework based on WebUOT-1M, incorporating various strategies to guide the learning of the student Transformer. To the best of our knowledge, this framework is the first to effectively transfer open-air domain knowledge to the UOT model through knowledge distillation, as demonstrated by results on both existing UOT datasets and the newly proposed WebUOT-1M. Furthermore, we comprehensively evaluate WebUOT-1M using 30 deep trackers, showcasing its value as a benchmark for UOT research by presenting new challenges and opportunities for future studies. The complete dataset, codes and tracking results, will be made publicly available.
- Abstract(参考訳): 水中物体追跡(英語: Underwater Object Tracking, UOT)は、水中のビデオシーケンス中の水中物質を特定し追跡するための基礎的なタスクである。
しかし、現在のUOTデータセットは、スケールの制限、ターゲットカテゴリやシナリオの多様性に悩まされており、現代の追跡アルゴリズムのトレーニングと評価を妨げている。
このギャップを埋めるために、私たちはまず第一歩を踏み出し、複雑な現実的な水中環境から得られた、これまでで最大の公開 UOT ベンチマークである WebUOT-1M, \ie を紹介します。
408のターゲットカテゴリからフィルタリングされた1500のビデオクリップに1100万のフレームで構成されており、これは以前のUOTデータセットである \eg, UVOT400をはるかに上回っている。
微妙な手動アノテーションと検証により,水中目標に対する高品質なバウンディングボックスを提供する。
さらに、WebUOT-1Mには、ビデオシーケンスのための言語プロンプトが含まれており、アプリケーション領域を拡大している。
ほとんどの既存のトラッカーは、屋外環境向けに調整されており、ドメインギャップのため、UOTに適用するとパフォーマンスが低下する。
これらのトラッカーのリトレーニングと微調整は、サンプルの不均衡と実際の水中データセットの制限により困難である。
これらの課題に対処するために,WebUOT-1Mに基づく新しいオムニ知識蒸留フレームワークを提案し,学生トランスフォーマーの学習指導に様々な戦略を取り入れた。
我々の知る限り、このフレームワークは、既存のUOTデータセットと新たに提案されたWebUOT-1Mの両方で実証されたように、知識蒸留を通じて、オープンエアドメイン知識をUOTモデルに効果的に転送する最初のフレームワークです。
さらに,30個のディープトラッカーを用いてWebUOT-1Mを包括的に評価し,今後の研究に新たな課題と機会を提供することで,UOT研究のベンチマークとしての価値を示す。
完全なデータセット、コード、追跡結果が公開されている。
関連論文リスト
- Diving into Underwater: Segment Anything Model Guided Underwater Salient Instance Segmentation and A Large-scale Dataset [60.14089302022989]
水中視覚タスクは複雑な水中状況のため、しばしばセグメンテーションの精度が低い。
第1次大規模水中塩分分節データセット(USIS10K)を構築した。
本研究では,水中ドメインに特化してセグメンツ・ア・シング・モデル(USIS-SAM)に基づく水中塩分・インスタンス・アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-06-10T06:17:33Z) - Improving Underwater Visual Tracking With a Large Scale Dataset and
Image Enhancement [70.2429155741593]
本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカ拡張手法を提案する。
水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。
本研究では,追尾品質の向上に特化して設計された水中画像強調アルゴリズムを提案する。
この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。
論文 参考訳(メタデータ) (2023-08-30T07:41:26Z) - UTOPIA: Unconstrained Tracking Objects without Preliminary Examination
via Cross-Domain Adaptation [26.293108793029297]
多重オブジェクト追跡(MOT)は、連続したビデオフレーム内で対象オブジェクトのバウンディングボックスとIDを見つけることを目的としている。
完全に教師されたMOTメソッドは、既存のデータセットで高い精度を達成したが、新たに取得したデータセットや新しい未知のドメインではうまく一般化できない。
本稿では、まず、ドメイン間の観点からMOT問題に対処し、実際に新しいデータ取得のプロセスを模倣する。
既存のデータセットからの新たなクロスドメインMOT適応は、オブジェクトの理解とモデリングに関する人間の知識を事前に定義せずに提案されている。
論文 参考訳(メタデータ) (2023-06-16T04:06:15Z) - UDTIRI: An Online Open-Source Intelligent Road Inspection Benchmark
Suite [21.565438268381467]
このベンチマークスイートで公開された最初のオンラインコンペである道路穴検出タスクを紹介します。
我々のベンチマークは、最先端のオブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションネットワークの体系的かつ徹底的な評価を提供する。
多様な道路条件をより包括的に理解したアルゴリズムを提供することで、未解決の可能性を解き明かそうとしている。
論文 参考訳(メタデータ) (2023-04-18T09:13:52Z) - A Dataset with Multibeam Forward-Looking Sonar for Underwater Object
Detection [0.0]
マルチビーム前方ソナー (MFLS) は水中検出において重要な役割を担っている。
MFLSを用いた水中物体検出の研究にはいくつかの課題がある。
本稿では,Tritech Gemini 1200ikソナーを用いて,9000枚以上のMFLS画像からなる新しいデータセットを提案する。
論文 参考訳(メタデータ) (2022-12-01T08:26:03Z) - Unifying Tracking and Image-Video Object Detection [54.91658924277527]
TrIVD (Tracking and Image-Video Detection) は、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルに統合する最初のフレームワークである。
カテゴリラベルの相違やセマンティックな重複に対処するため、TrIVDは対象カテゴリに対する検出/追跡を基礎と理由として定式化している。
論文 参考訳(メタデータ) (2022-11-20T20:30:28Z) - The Caltech Fish Counting Dataset: A Benchmark for Multiple-Object
Tracking and Counting [17.846166161707586]
Caltech Fish Countingデータセットは、ソナービデオ中の魚を検出し、追跡し、カウントするための大規模なデータセットである。
CFCは、ターゲットが容易に解決できない自然界のドメインから派生している。
CFCは、MOTをトレーニングし、アルゴリズムをカウントし、未知のテスト場所での一般化性能を評価することができる。
論文 参考訳(メタデータ) (2022-07-19T14:26:12Z) - Batch Exploration with Examples for Scalable Robotic Reinforcement
Learning [63.552788688544254]
BEE(Batch Exploration with Examples)は、重要状態の画像の少ない数の人間がガイドする状態空間の関連領域を探索する。
BEEは、シミュレーションと本物のフランカロボットの両方で、視覚ベースの操作に挑戦することができる。
論文 参考訳(メタデータ) (2020-10-22T17:49:25Z) - Deep Learning based Pedestrian Inertial Navigation: Methods, Dataset and
On-Device Inference [49.88536971774444]
慣性測定ユニット(IMU)は小型で安価でエネルギー効率が良く、スマートデバイスや移動ロボットに広く使われている。
正確で信頼性の高い歩行者ナビゲーションをサポートするために慣性データをエクスプロイトすることは、新しいインターネット・オブ・シングス・アプリケーションやサービスにとって重要なコンポーネントである。
我々は、深層学習に基づく慣性ナビゲーション研究のための最初の公開データセットであるOxIOD(OxIOD)を提示、リリースする。
論文 参考訳(メタデータ) (2020-01-13T04:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。