論文の概要: SonarT165: A Large-scale Benchmark and STFTrack Framework for Acoustic Object Tracking
- arxiv url: http://arxiv.org/abs/2504.15609v1
- Date: Tue, 22 Apr 2025 06:02:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 22:13:08.9386
- Title: SonarT165: A Large-scale Benchmark and STFTrack Framework for Acoustic Object Tracking
- Title(参考訳): SonarT165:音響オブジェクト追跡のための大規模ベンチマークとSTFTrackフレームワーク
- Authors: Yunfeng Li, Bo Wang, Jiahao Wan, Xueyi Wu, Ye Li,
- Abstract要約: 水中観測システムは通常、光学カメラとソナーシステムを統合する。
水中音響物体追跡(UAOT)における従来手法とシームズネットワークの探索研究
我々は165の平方列、165のファン列、205Kの高品質アノテーションからなる最初の大規模UAOTベンチマークSonarT165を提案する。
- 参考スコア(独自算出の注目度): 4.235252053339947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Underwater observation systems typically integrate optical cameras and imaging sonar systems. When underwater visibility is insufficient, only sonar systems can provide stable data, which necessitates exploration of the underwater acoustic object tracking (UAOT) task. Previous studies have explored traditional methods and Siamese networks for UAOT. However, the absence of a unified evaluation benchmark has significantly constrained the value of these methods. To alleviate this limitation, we propose the first large-scale UAOT benchmark, SonarT165, comprising 165 square sequences, 165 fan sequences, and 205K high-quality annotations. Experimental results demonstrate that SonarT165 reveals limitations in current state-of-the-art SOT trackers. To address these limitations, we propose STFTrack, an efficient framework for acoustic object tracking. It includes two novel modules, a multi-view template fusion module (MTFM) and an optimal trajectory correction module (OTCM). The MTFM module integrates multi-view feature of both the original image and the binary image of the dynamic template, and introduces a cross-attention-like layer to fuse the spatio-temporal target representations. The OTCM module introduces the acoustic-response-equivalent pixel property and proposes normalized pixel brightness response scores, thereby suppressing suboptimal matches caused by inaccurate Kalman filter prediction boxes. To further improve the model feature, STFTrack introduces a acoustic image enhancement method and a Frequency Enhancement Module (FEM) into its tracking pipeline. Comprehensive experiments show the proposed STFTrack achieves state-of-the-art performance on the proposed benchmark. The code is available at https://github.com/LiYunfengLYF/SonarT165.
- Abstract(参考訳): 水中観測システムは通常、光学カメラとソナーシステムを統合する。
水中の視界が不十分な場合、ソナーシステムだけが安定したデータを提供することができ、水中音響物体追跡(UAOT)タスクを探索する必要がある。
従来、UAOTの伝統的な手法やシームズネットワークについて研究されてきた。
しかし、統一評価ベンチマークがないため、これらの手法の価値は著しく制限されている。
この制限を緩和するため、我々は165平方列、165ファン列、205Kの高品質アノテーションからなる最初の大規模UAOTベンチマークSonarT165を提案する。
実験の結果、SonarT165は現在の最先端のSOTトラッカーの限界を明らかにしている。
これらの制約に対処するため,音響オブジェクト追跡のための効率的なフレームワークSTFTrackを提案する。
これには、2つの新しいモジュール、マルチビューテンプレート融合モジュール(MTFM)と最適軌道補正モジュール(OTCM)が含まれる。
MTFMモジュールは、元の画像と動的テンプレートのバイナリ画像の両方のマルチビュー機能を統合し、時空間的ターゲット表現を融合させる、横断的なアテンションのような層を導入する。
OTCMモジュールは、音響応答等価画素特性を導入し、正規化画素輝度応答スコアを提案し、不正確なカルマンフィルタ予測ボックスによる準最適一致を抑制する。
モデル機能をさらに改善するため、STFTrackは追跡パイプラインに音響画像強調法と周波数拡張モジュール(FEM)を導入した。
総合的な実験により、提案したSTFTrackは、提案したベンチマーク上で最先端のパフォーマンスを達成する。
コードはhttps://github.com/LiYunfengLYF/SonarT165で公開されている。
関連論文リスト
- FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - RFMI: Estimating Mutual Information on Rectified Flow for Text-to-Image Alignment [51.85242063075333]
フローマッチングフレームワークでトレーニングされたRectified Flow (RF)モデルは、Text-to-Image (T2I)条件生成における最先端のパフォーマンスを達成した。
しかし、複数のベンチマークでは、合成画像はプロンプトとの整合性に乏しいことが示されている。
RFMI(Mutual Information (MI) 推定器) を導入し,MI推定に事前学習モデル自体を用いる。
論文 参考訳(メタデータ) (2025-03-18T15:41:45Z) - Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking [54.124445709376154]
効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。
このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。
実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
論文 参考訳(メタデータ) (2025-03-01T14:44:54Z) - FE-UNet: Frequency Domain Enhanced U-Net with Segment Anything Capability for Versatile Image Segmentation [50.9040167152168]
CNNのコントラスト感度関数を実験的に定量化し,人間の視覚システムと比較した。
本稿ではウェーブレット誘導分光ポーリングモジュール(WSPM)を提案する。
人間の視覚系をさらにエミュレートするために、周波数領域拡張受容野ブロック(FE-RFB)を導入する。
本研究では,SAM2 をバックボーンとし,Hiera-Large を事前学習ブロックとして組み込んだ FE-UNet を開発した。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Read Pointer Meters in complex environments based on a Human-like
Alignment and Recognition Algorithm [16.823681016882315]
これらの問題を克服するための人間ライクなアライメントと認識アルゴリズムを提案する。
STM(Spatial Transformed Module)は,画像のフロントビューを自己自律的に取得するために提案される。
VAM(Value Acquisition Module)は、エンドツーエンドのトレーニングフレームワークによって正確なメーター値を推測するために提案される。
論文 参考訳(メタデータ) (2023-02-28T05:37:04Z) - Frequency-Aware Self-Supervised Monocular Depth Estimation [41.97188738587212]
自己教師付き単眼深度推定モデルを改善するための2つの多目的手法を提案する。
本手法の高一般化性は,測光損失関数の基本的およびユビキタスな問題を解くことによって達成される。
我々は、解釈可能な解析で深度推定器を改善するために、初めてぼやけた画像を提案する。
論文 参考訳(メタデータ) (2022-10-11T14:30:26Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - DSRRTracker: Dynamic Search Region Refinement for Attention-based
Siamese Multi-Object Tracking [13.104037155691644]
本稿では,ガウスフィルタにインスパイアされた動的探索領域改良モジュールを用いたエンドツーエンドMOT法を提案する。
提案手法は,最先端の性能を妥当な速度で達成することができる。
論文 参考訳(メタデータ) (2022-03-21T04:14:06Z) - Robust Unsupervised Multi-Object Tracking in Noisy Environments [5.409476600348953]
頑健なマルチオブジェクト追跡(MOT)モデルである AttU-Net を導入する。
提案したシングルヘッドアテンションモデルは、異なるセグメントスケールでの視覚的表現を学習することで、ノイズの負の影響を制限するのに役立つ。
本手法をMNISTとAtariゲームビデオベンチマークで評価する。
論文 参考訳(メタデータ) (2021-05-20T19:38:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。