論文の概要: A Comparative Study of YOLOv8 to YOLOv11 Performance in Underwater Vision Tasks
- arxiv url: http://arxiv.org/abs/2509.12682v1
- Date: Tue, 16 Sep 2025 05:12:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:52.901539
- Title: A Comparative Study of YOLOv8 to YOLOv11 Performance in Underwater Vision Tasks
- Title(参考訳): 水中視覚課題におけるYOLOv8とYOLOv11の比較検討
- Authors: Gordon Hung, Ivan Felipe Rodriguez,
- Abstract要約: YOLOファミリーの1段階検出器は、単一の低遅延ネットワークで局所化と分類を融合するため、魅力的である。
比較操作条件にまたがる2つのデータセットをキュレートする。コーラル病セット(4,480イメージ、18クラス)と魚種セット(7,500イメージ、20クラス)である。
YOLOvs, YOLOv9-s, YOLOv10-s, YOLOv11-sを同一のハイパー参照でトレーニングし, 精度, リコール, mAP50, mAP50-95, 画像毎の推論時間, フレーム毎秒(FPS)を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autonomous underwater vehicles (AUVs) increasingly rely on on-board computer-vision systems for tasks such as habitat mapping, ecological monitoring, and infrastructure inspection. However, underwater imagery is hindered by light attenuation, turbidity, and severe class imbalance, while the computational resources available on AUVs are limited. One-stage detectors from the YOLO family are attractive because they fuse localization and classification in a single, low-latency network; however, their terrestrial benchmarks (COCO, PASCAL-VOC, Open Images) leave open the question of how successive YOLO releases perform in the marine domain. We curate two openly available datasets that span contrasting operating conditions: a Coral Disease set (4,480 images, 18 classes) and a Fish Species set (7,500 images, 20 classes). For each dataset, we create four training regimes (25 %, 50 %, 75 %, 100 % of the images) while keeping balanced validation and test partitions fixed. We train YOLOv8-s, YOLOv9-s, YOLOv10-s, and YOLOv11-s with identical hyperparameters (100 epochs, 640 px input, batch = 16, T4 GPU) and evaluate precision, recall, mAP50, mAP50-95, per-image inference time, and frames-per-second (FPS). Post-hoc Grad-CAM visualizations probe feature utilization and localization faithfulness. Across both datasets, accuracy saturates after YOLOv9, suggesting architectural innovations primarily target efficiency rather than accuracy. Inference speed, however, improves markedly. Our results (i) provide the first controlled comparison of recent YOLO variants on underwater imagery, (ii) show that lightweight YOLOv10 offers the best speed-accuracy trade-off for embedded AUV deployment, and (iii) deliver an open, reproducible benchmark and codebase to accelerate future marine-vision research.
- Abstract(参考訳): 自律型水中車両(AUV)は、環境マッピング、生態モニタリング、インフラ検査などのタスクのために、搭載されたコンピュータビジョンシステムにますます依存している。
しかし、水中画像は光減衰、濁度、重度のクラス不均衡によって妨げられ、AUVで利用可能な計算資源は限られている。
YOLOファミリーの1段階検出器は、単一低遅延ネットワークにおけるローカライゼーションと分類を融合させるため魅力的であるが、彼らの地上ベンチマーク(COCO, PASCAL-VOC, Open Images)では、YOLOリリースが海洋ドメインでどのように動作するかという疑問が残る。
手術条件とは対照的な2つの公開データセットをキュレートする。コーラル病セット(4,480イメージ、18クラス)と魚種セット(7,500イメージ、20クラス)である。
各データセットに対して、バランスの取れた検証とテストパーティションの修正を維持しながら、4つのトレーニングレシエーション(25%、50%、75%、100%)を作成します。
YOLOv8-s, YOLOv9-s, YOLOv10-s, YOLOv11-sを同一のハイパーパラメータ(100 epochs, 640 px 入力, バッチ = 16, T4 GPU)でトレーニングし, 精度, リコール, mAP50, mAP50-95, 画像毎の推論時間, フレーム毎秒(FPS)を評価する。
ポストホックグラッド-CAM可視化は特徴利用と局所化忠実度を探索する。
どちらのデータセットも、YOLOv9以降の精度は飽和しており、アーキテクチャの革新は主に精度よりも効率を目標としていることを示唆している。
しかし、推論速度は著しく向上する。
結果
(i) 水中画像における最近のYOLO変種について, 制御された最初の比較結果を提供する。
(ii)軽量YOLOv10は,組込みAUVデプロイメントにおいて,最高速度精度のトレードオフを提供することを示す。
三 将来の海洋環境研究を加速するために、オープンで再現可能なベンチマークとコードベースを提供する。
関連論文リスト
- YOLO-FireAD: Efficient Fire Detection via Attention-Guided Inverted Residual Learning and Dual-Pooling Feature Preservation [5.819675225521611]
本研究は, 意識誘導型逆残差・デュアルプールダウンスケール核融合(YOLO-FireAD)による火災検出に一度だけ注目することを提案する。
注意誘導型逆残差ブロック(AIR)は、ハイブリッドチャネル空間の注意と逆残差を統合し、火災特性を適応的に増強し、環境騒音を抑制する。
Dual Pool Downscale Fusion Block (DPDF)は、最大平均プール出力の学習可能な融合を通じて、マルチスケールの火災パターンを保存する。
論文 参考訳(メタデータ) (2025-05-27T08:29:07Z) - YOLOv10: Real-Time End-to-End Object Detection [68.28699631793967]
リアルタイムオブジェクト検出の分野では,YOLOが主流のパラダイムとして浮上している。
非最大抑圧(NMS)による処理後ハマーによるYOLOのエンドツーエンドデプロイメントへの依存。
YOLOの総合的効率-精度駆動型モデル設計戦略を紹介する。
論文 参考訳(メタデータ) (2024-05-23T11:44:29Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - YOLO-MS: Rethinking Multi-Scale Representation Learning for Real-time Object Detection [63.36722419180875]
YOLO-MSと呼ばれる効率的かつ高性能な物体検出器を提供する。
私たちは、他の大規模なデータセットに頼ることなく、MS COCOデータセット上でYOLO-MSをスクラッチからトレーニングします。
私たちの作業は、他のYOLOモデルのプラグイン・アンド・プレイモジュールとしても機能します。
論文 参考訳(メタデータ) (2023-08-10T10:12:27Z) - DeepSeaNet: Improving Underwater Object Detection using EfficientDet [0.0]
このプロジェクトでは、注釈付き水中データセット上で様々な物体検出モデルを実装し、評価する。
このデータセットは、Limfjorden水中で捕獲された魚、カニ、ヒトデ、その他の水生動物の注釈画像からなる。
I compare the results of YOLOv3 (31.10% mean Average Precision (mAP)), YOLOv4 (83.72% mAP), YOLOv5 (97.6%), YOLOv8 (98.20%), EfficientDet (98.56% mAP) and Detectron2 (95.20% mAP) on the same dataset。
論文 参考訳(メタデータ) (2023-05-26T13:41:35Z) - A lightweight and accurate YOLO-like network for small target detection
in Aerial Imagery [94.78943497436492]
小型ターゲット検出のためのシンプルで高速で効率的なネットワークであるYOLO-Sを提案する。
YOLO-SはDarknet20をベースとした小さな特徴抽出器と、バイパスと連結の両方を通じて接続をスキップする。
YOLO-Sはパラメータサイズが87%減少し、約半分のFLOPがYOLOv3となり、低消費電力の産業用アプリケーションに実用化された。
論文 参考訳(メタデータ) (2022-04-05T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。