論文の概要: You Sense Only Once Beneath: Ultra-Light Real-Time Underwater Object Detection
- arxiv url: http://arxiv.org/abs/2504.15694v1
- Date: Tue, 22 Apr 2025 08:26:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 21:29:59.054423
- Title: You Sense Only Once Beneath: Ultra-Light Real-Time Underwater Object Detection
- Title(参考訳): 超軽量でリアルタイムな水中物体検出
- Authors: Jun Dong, Wenli Wu, Jintao Cheng, Xiaoyu Tang,
- Abstract要約: 超軽量リアルタイム水中物体検出フレームワークYSOOB(You Sense Only Beneath)を提案する。
具体的には、マルチスペクトルウェーブレット(MSWE)を用いて入力画像の周波数領域符号化を行い、水中光色歪みによる意味損失を最小限に抑える。
また、単純で効果的なチャネル圧縮によりモデル冗長性を排除し、モデル軽量化のために大カーネル畳み込み(RLKC)を再構築する。
- 参考スコア(独自算出の注目度): 2.5249064981269296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the remarkable achievements in object detection, the model's accuracy and efficiency still require further improvement under challenging underwater conditions, such as low image quality and limited computational resources. To address this, we propose an Ultra-Light Real-Time Underwater Object Detection framework, You Sense Only Once Beneath (YSOOB). Specifically, we utilize a Multi-Spectrum Wavelet Encoder (MSWE) to perform frequency-domain encoding on the input image, minimizing the semantic loss caused by underwater optical color distortion. Furthermore, we revisit the unique characteristics of even-sized and transposed convolutions, allowing the model to dynamically select and enhance key information during the resampling process, thereby improving its generalization ability. Finally, we eliminate model redundancy through a simple yet effective channel compression and reconstructed large kernel convolution (RLKC) to achieve model lightweight. As a result, forms a high-performance underwater object detector YSOOB with only 1.2 million parameters. Extensive experimental results demonstrate that, with the fewest parameters, YSOOB achieves mAP50 of 83.1% and 82.9% on the URPC2020 and DUO datasets, respectively, comparable to the current SOTA detectors. The inference speed reaches 781.3 FPS and 57.8 FPS on the T4 GPU (TensorRT FP16) and the edge computing device Jetson Xavier NX (TensorRT FP16), surpassing YOLOv12-N by 28.1% and 22.5%, respectively.
- Abstract(参考訳): 物体検出における顕著な成果にもかかわらず、モデルの精度と効率性は、低画質や限られた計算資源といった挑戦的な水中条件下でさらに改善する必要がある。
そこで本研究では,Ultra-Light Real-Time Underwater Object Detection framework, You Sense Only Once Beneath (YSOOB)を提案する。
具体的には、マルチスペクトルウェーブレットエンコーダ(MSWE)を用いて、水中光色歪みによる意味損失を最小限に抑え、入力画像の周波数領域符号化を行う。
さらに、偶大および転置畳み込みのユニークな特徴を再検討し、再サンプリングプロセス中にキー情報を動的に選択・拡張し、一般化能力を向上させる。
最後に, 単純で効率的なチャネル圧縮によるモデル冗長性を排除し, モデル軽量化のために大規模カーネル畳み込み(RLKC)を再構築する。
その結果、120万個のパラメータしか持たない高性能水中物体検出器YSOOBが形成された。
最も少ないパラメータで、YSOOBは現在のSOTA検出器に匹敵するURPC2020とDUOデータセットでそれぞれ83.1%と82.9%のmAP50を達成している。
推論速度はT4 GPU(TensorRT FP16)とエッジコンピューティングデバイスJetson Xavier NX(TensorRT FP16)で781.3 FPSと57.8 FPSに達し、それぞれYOLOv12-Nを28.1%、22.5%上回る。
関連論文リスト
- Sebica: Lightweight Spatial and Efficient Bidirectional Channel Attention Super Resolution Network [0.0]
SISR(Single Image Super-Resolution)は,低解像度画像の画質向上のための重要な技術である。
本稿では,空間的および効率的な双方向チャネルアテンション機構を組み込んだ軽量ネットワークSebicaを提案する。
セビカは高い復元品質を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-10-27T18:27:07Z) - Low-power Ship Detection in Satellite Images Using Neuromorphic Hardware [1.4330085996657045]
オンボードのデータ処理は、船を識別し、地上に送られるデータの量を削減できる。
船上で撮影されたほとんどの画像は水域や陸地のみを含み、エアバス船検出データセットでは船を含む画像の22.1%しか示していない。
1つの複雑なモデルに頼るのではなく、パフォーマンスを最適化する低消費電力2段階システムを構築した。
論文 参考訳(メタデータ) (2024-06-17T08:36:12Z) - Tiny-VBF: Resource-Efficient Vision Transformer based Lightweight
Beamformer for Ultrasound Single-Angle Plane Wave Imaging [4.15681035147785]
本研究では、新しいビジョントランスを用いた小型ビームフォーマ(Tiny-VBF)を提案する。
Tiny-VBFの出力は、非常に低いフレームレートを必要とする高速エンベロープ検出を提供する。
我々は、Zynq UltraScale+ MPSoC ZCU104 FPGA上で、加速器アーキテクチャを提案し、Tiny-VBFモデルを実装した。
論文 参考訳(メタデータ) (2023-11-20T10:47:52Z) - Global Context Aggregation Network for Lightweight Saliency Detection of
Surface Defects [70.48554424894728]
我々は,エンコーダ・デコーダ構造上の表面欠陥を簡易に検出するためのGCANet(Global Context Aggregation Network)を開発した。
まず、軽量バックボーンの上部層に新しいトランスフォーマーエンコーダを導入し、DSA(Depth-wise Self-Attention)モジュールを通じてグローバルなコンテキスト情報をキャプチャする。
3つの公開欠陥データセットの実験結果から,提案したネットワークは,他の17の最先端手法と比較して,精度と実行効率のトレードオフを良好に達成できることが示された。
論文 参考訳(メタデータ) (2023-09-22T06:19:11Z) - Learning Heavily-Degraded Prior for Underwater Object Detection [59.5084433933765]
本稿では、検出器フレンドリーな画像から、転送可能な事前知識を求める。
これは、検出器フレンドリー(DFUI)と水中画像の高度に劣化した領域が、特徴分布のギャップがあることを統計的に観察したものである。
高速かつパラメータの少ない本手法は変圧器型検出器よりも優れた性能を保っている。
論文 参考訳(メタデータ) (2023-08-24T12:32:46Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - SALISA: Saliency-based Input Sampling for Efficient Video Object
Detection [58.22508131162269]
ビデオオブジェクト検出のための新しい一様SALiencyベースの入力SAmpling技術であるSALISAを提案する。
SALISAは小物体の検出を著しく改善することを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:51Z) - Operationalizing Convolutional Neural Network Architectures for
Prohibited Object Detection in X-Ray Imagery [15.694880385913534]
本稿では,近年の2つのエンドツーエンドオブジェクト検出CNNアーキテクチャ,Cascade R-CNNとFreeAnchorの実現可能性について検討する。
パラメータが少なく訓練時間も少ないため、FreeAnchorは13 fps (3.9 ms)の最大検出速度を達成している。
CNNモデルは、損失のある圧縮に対してかなりのレジリエンスを示し、JPEG圧縮レベル50においてmAPの1.1%しか減少しない。
論文 参考訳(メタデータ) (2021-10-10T21:20:04Z) - Small Object Detection Based on Modified FSSD and Model Compression [7.387639662781843]
本稿では,FSSDに基づく小型物体検出アルゴリズムを提案する。
計算コストと記憶空間を削減するため, モデル圧縮を実現するためにプルーニングを行う。
アルゴリズムの平均精度(mAP)は、PASCAL VOCで80.4%、GTX1080tiで59.5 FPSに達する。
論文 参考訳(メタデータ) (2021-08-24T03:20:32Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。