論文の概要: FishDet-M: A Unified Large-Scale Benchmark for Robust Fish Detection and CLIP-Guided Model Selection in Diverse Aquatic Visual Domains
- arxiv url: http://arxiv.org/abs/2507.17859v1
- Date: Wed, 23 Jul 2025 18:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.416642
- Title: FishDet-M: A Unified Large-Scale Benchmark for Robust Fish Detection and CLIP-Guided Model Selection in Diverse Aquatic Visual Domains
- Title(参考訳): FishDet-M: 多様な水生視覚領域におけるロバスト魚検出とCLIP誘導モデル選択のための大規模ベンチマーク
- Authors: Muayad Abujabal, Lyes Saad Saoud, Irfan Hussain,
- Abstract要約: FishDet-Mは、様々な水生環境にまたがる13の公開データセットを含む、魚検出のための最大の統一されたベンチマークである。
すべてのデータは、境界ボックスとセグメンテーションマスクの両方を持つCOCOスタイルのアノテーションを使用して調和する。
FishDet-Mは、複雑な水シーンにおけるオブジェクト検出を評価するための標準化され再現可能なプラットフォームを確立する。
- 参考スコア(独自算出の注目度): 1.3791394805787949
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate fish detection in underwater imagery is essential for ecological monitoring, aquaculture automation, and robotic perception. However, practical deployment remains limited by fragmented datasets, heterogeneous imaging conditions, and inconsistent evaluation protocols. To address these gaps, we present \textit{FishDet-M}, the largest unified benchmark for fish detection, comprising 13 publicly available datasets spanning diverse aquatic environments including marine, brackish, occluded, and aquarium scenes. All data are harmonized using COCO-style annotations with both bounding boxes and segmentation masks, enabling consistent and scalable cross-domain evaluation. We systematically benchmark 28 contemporary object detection models, covering the YOLOv8 to YOLOv12 series, R-CNN based detectors, and DETR based models. Evaluations are conducted using standard metrics including mAP, mAP@50, and mAP@75, along with scale-specific analyses (AP$_S$, AP$_M$, AP$_L$) and inference profiling in terms of latency and parameter count. The results highlight the varying detection performance across models trained on FishDet-M, as well as the trade-off between accuracy and efficiency across models of different architectures. To support adaptive deployment, we introduce a CLIP-based model selection framework that leverages vision-language alignment to dynamically identify the most semantically appropriate detector for each input image. This zero-shot selection strategy achieves high performance without requiring ensemble computation, offering a scalable solution for real-time applications. FishDet-M establishes a standardized and reproducible platform for evaluating object detection in complex aquatic scenes. All datasets, pretrained models, and evaluation tools are publicly available to facilitate future research in underwater computer vision and intelligent marine systems.
- Abstract(参考訳): 水中画像における正確な魚検出は、生態モニタリング、養殖の自動化、ロボットの知覚に不可欠である。
しかし、実際の展開は断片化されたデータセット、不均一な撮像条件、一貫性のない評価プロトコルによって制限されている。
これらのギャップに対処するため,魚検出のための最大統一ベンチマークである‘textit{FishDet-M} を提示する。
すべてのデータは、バウンディングボックスとセグメンテーションマスクの両方でCOCOスタイルのアノテーションを使用して調和し、一貫性とスケーラブルなクロスドメイン評価を可能にする。
YOLOv8 から YOLOv12 シリーズ,R-CNN ベース検出器,DETR ベースモデルを含む,28 の現代オブジェクト検出モデルを系統的にベンチマークした。
評価は、mAP、mAP@50、mAP@75などの標準メトリクスと、スケール固有の分析(AP$_S$、AP$_M$、AP$_L$)と、遅延とパラメータ数の観点からの推論プロファイリングを用いて行われる。
結果は、FishDet-Mでトレーニングされたモデル間でのさまざまな検出性能と、異なるアーキテクチャのモデル間での精度と効率のトレードオフを強調している。
適応配置を支援するために,視覚言語アライメントを活用するCLIPベースのモデル選択フレームワークを導入し,各入力画像に対して最もセマンティックに適切な検出器を動的に同定する。
このゼロショット選択戦略は、アンサンブル計算を必要とせずにハイパフォーマンスを実現し、リアルタイムアプリケーションにスケーラブルなソリューションを提供する。
FishDet-Mは、複雑な水シーンにおけるオブジェクト検出を評価するための標準化され再現可能なプラットフォームを確立する。
すべてのデータセット、事前訓練されたモデル、評価ツールが公開されており、水中コンピュータービジョンとインテリジェントな海洋システムに関する将来の研究を促進する。
関連論文リスト
- Underwater Monocular Metric Depth Estimation: Real-World Benchmarks and Synthetic Fine-Tuning with Vision Foundation Models [0.0]
実世界の水中データセットを用いたゼロショットおよび微調整単分子メートル法深度推定モデルのベンチマークを示す。
その結果,地上データ(実データや合成データ)に基づいて訓練した大規模モデルでは,水中での作業は不十分であることがわかった。
本研究では,水中における単分子距離深度推定の詳細な評価と可視化を行う。
論文 参考訳(メタデータ) (2025-07-02T21:06:39Z) - YH-MINER: Multimodal Intelligent System for Natural Ecological Reef Metric Extraction [23.4289262373633]
海洋生物多様性と生態過程を維持するために不可欠なサンゴ礁は、エスカレートする脅威に直面している。
本研究では,YH-MINERシステムを開発し,「対象検出-意味分割-優先入力」のためのインテリジェントなフレームワークを構築した。
本システムは,88%の属レベルの分類精度を達成し,同時にコア生態指標を抽出する。
論文 参考訳(メタデータ) (2025-05-28T11:36:18Z) - UWSAM: Segment Anything Model Guided Underwater Instance Segmentation and A Large-scale Benchmark Dataset [62.00529957144851]
大規模な水中インスタンスセグメンテーションデータセットであるUIIS10Kを提案する。
次に,水中インスタンスの自動・高精度セグメンテーションのための効率的なモデルであるUWSAMを紹介する。
複数の水中インスタンスデータセット上での最先端手法よりも優れた性能向上を実現し,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2025-05-21T14:36:01Z) - RD-UIE: Relation-Driven State Space Modeling for Underwater Image Enhancement [59.364418120895]
水中画像強調(UIE)は、海洋視覚応用のための重要な前処理ステップである。
実効UIE(RD-UIE)のための新しい関係駆動型マンバフレームワークを開発した。
水中強化ベンチマークの実験では、RD-UIEは最先端のアプローチであるWMambaよりも優れていた。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Image-Based Relocalization and Alignment for Long-Term Monitoring of Dynamic Underwater Environments [57.59857784298534]
本稿では,視覚的位置認識(VPR),特徴マッチング,画像分割を組み合わせた統合パイプラインを提案する。
本手法は, 再検討領域のロバスト同定, 剛性変換の推定, 生態系変化の下流解析を可能にする。
論文 参考訳(メタデータ) (2025-03-06T05:13:19Z) - A Practical Approach to Underwater Depth and Surface Normals Estimation [3.0516727053033392]
本稿では,単眼深度と表面正規化推定(MDSNE)のための新しいディープラーニングモデルを提案する。
これは特に、CNNとTransformerを統合するハイブリッドアーキテクチャを使用して、水中環境向けに調整されている。
我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。
論文 参考訳(メタデータ) (2024-10-02T22:41:12Z) - Latent Semantic Consensus For Deterministic Geometric Model Fitting [109.44565542031384]
我々はLSC(Latent Semantic Consensus)と呼ばれる効果的な方法を提案する。
LSCは、モデルフィッティング問題をデータポイントとモデル仮説に基づく2つの潜在意味空間に定式化する。
LSCは、一般的な多構造モデルフィッティングのために、数ミリ秒以内で一貫した、信頼性の高いソリューションを提供することができる。
論文 参考訳(メタデータ) (2024-03-11T05:35:38Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - DARTH: Holistic Test-time Adaptation for Multiple Object Tracking [87.72019733473562]
複数物体追跡(MOT)は、自律運転における知覚システムの基本的構成要素である。
運転システムの安全性の追求にもかかわらず、テスト時間条件における領域シフトに対するMOT適応問題に対する解決策は提案されていない。
我々はMOTの総合的なテスト時間適応フレームワークであるDARTHを紹介する。
論文 参考訳(メタデータ) (2023-10-03T10:10:42Z) - FishMOT: A Simple and Effective Method for Fish Tracking Based on IoU
Matching [11.39414015803651]
FishMOTは、オブジェクト検出とObjectoUマッチングを組み合わせた、新しい魚追跡手法である。
本手法は, 各種環境および魚の数に対して, 優れた堅牢性と汎用性を示す。
論文 参考訳(メタデータ) (2023-09-06T13:16:41Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - SVAM: Saliency-guided Visual Attention Modeling by Autonomous Underwater
Robots [16.242924916178282]
本稿では,自律型水中ロボットの視覚的注意モデル(SVAM)に対する総合的なアプローチを提案する。
提案するSVAM-Netは,様々なスケールの深部視覚的特徴を統合し,自然水中画像に有効なSOD(Salient Object Detection)を実現する。
論文 参考訳(メタデータ) (2020-11-12T08:17:21Z) - A Realistic Fish-Habitat Dataset to Evaluate Algorithms for Underwater
Visual Analysis [2.6476746128312194]
我々は、DeepFishを大規模データセットでベンチマークスイートとして提示し、いくつかのコンピュータビジョンタスクのためのメソッドをトレーニングし、テストする。
このデータセットは、熱帯オーストラリアの海洋環境にある20の温帯生物から採取された約4万枚の画像で構成されている。
実験では,データセットの特徴を詳細に分析し,いくつかの最先端手法の性能評価を行った。
論文 参考訳(メタデータ) (2020-08-28T12:20:59Z) - Overcoming Classifier Imbalance for Long-tail Object Detection with
Balanced Group Softmax [88.11979569564427]
本報告では, 長期分布前における最先端モデルの過小評価に関する最初の体系的解析を行う。
本稿では,グループワイドトレーニングを通じて検出フレームワーク内の分類器のバランスをとるための,新しいバランス付きグループソフトマックス(BAGS)モジュールを提案する。
非常に最近の長尾大語彙オブジェクト認識ベンチマークLVISの大規模な実験により,提案したBAGSは検出器の性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2020-06-18T10:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。