論文の概要: FishDetector-R1: Unified MLLM-Based Framework with Reinforcement Fine-Tuning for Weakly Supervised Fish Detection, Segmentation, and Counting
- arxiv url: http://arxiv.org/abs/2512.05996v1
- Date: Mon, 01 Dec 2025 06:23:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.133216
- Title: FishDetector-R1: Unified MLLM-Based Framework with Reinforcement Fine-Tuning for Weakly Supervised Fish Detection, Segmentation, and Counting
- Title(参考訳): FishDetector-R1: 弱監視魚の検出, セグメンテーション, 計数のための強化細調整によるMLLM統合フレームワーク
- Authors: Yi Liu, Jingyu Song, Vedanth Kallakuri, Katherine A. Skinner,
- Abstract要約: 魚の発見, セグメンテーション, 計数のためのMLLMベースの統合フレームワークである FishDetector-R1 を紹介する。
DeepFishデータセットでは,ベースラインよりも大幅に向上し,APを20%,mIoUを10%,MAEを30%,GAMEを35%削減した。
- 参考スコア(独自算出の注目度): 12.040327353059945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing underwater fish imagery is critical for ecological monitoring but remains difficult due to visual degradation and costly annotations. We introduce FishDetector-R1, a unified MLLM-based framework for fish detection, segmentation, and counting under weak supervision. On the DeepFish dataset, our framework achieves substantial gains over baselines, improving AP by 20% and mIoU by 10%, while reducing MAE by 30% and GAME by 35%. These improvements stem from two key components: a novel detect-to-count prompt that enforces spatially consistent detections and counts, and Reinforcement Learning from Verifiable Reward (RLVR) with a complementary scalable paradigm leveraging sparse point labels. Ablation studies further validate the effectiveness of this reward design. Moreover, the improvement generalizes well to other underwater datasets, confirming strong cross-domain robustness. Overall, FishDetector-R1 provides a reliable and scalable solution for accurate marine visual understanding via weak supervision. The project page for FishDetector-R1 is https://umfieldrobotics.github.io/FishDetector-R1.
- Abstract(参考訳): 水中の魚の画像を解析することは生態学的モニタリングにとって重要であるが、視覚的劣化と高価なアノテーションのために依然として困難である。
魚の発見, セグメンテーション, 計数のためのMLLMベースの統合フレームワークである FishDetector-R1 を紹介する。
DeepFishデータセットでは,ベースラインよりも大幅に向上し,APを20%,mIoUを10%,MAEを30%,GAMEを35%削減した。
これらの改善は、空間的に一貫した検出とカウントを強制する新しい検出対カウントプロンプトと、スパース・ポイント・ラベルを活用する相補的スケーラブルなパラダイムを備えたRLVR(Reinforcement Learning from Verifiable Reward)である。
アブレーション研究は、この報酬設計の有効性をさらに検証している。
さらに、改良は他の水中データセットによく当てはまり、強いドメイン間の堅牢性を確認する。
全体として、FishDetector-R1は信頼性が高くスケーラブルなソリューションを提供する。
FishDetector-R1のプロジェクトページはhttps://umfieldrobotics.github.io/FishDetector-R1である。
関連論文リスト
- Practical Manipulation Model for Robust Deepfake Detection [55.2480439325792]
画像超解像領域において,より現実的な劣化モデルを構築した。
擬似フェイクの空間を、ポアソンブレンディング、より多様なマスク、ジェネレータアーティファクト、およびイントラクタを用いて拡張する。
DFDCデータセットとDFDCPデータセットでは、それぞれ3.51%$と6.21%$AUCが明らかに増加した。
論文 参考訳(メタデータ) (2025-06-05T15:06:16Z) - FMRFT: Fusion Mamba and DETR for Query Time Sequence Intersection Fish Tracking [3.599033310931609]
本稿では,複雑なマルチシナリオ・スタージョン追跡データセットを確立する。
リアルタイムの魚追跡ソリューションであるFMRFTモデルを導入している。
このモデルは、ビデオメモリ消費の少ないMamba In Mambaアーキテクチャを取り入れている。
論文 参考訳(メタデータ) (2024-09-02T10:33:45Z) - A method for detecting dead fish on large water surfaces based on improved YOLOv10 [0.6874745415692134]
死んだ魚は水質の悪化、生態系の損傷、病気の伝染などの重大な問題を引き起こす可能性がある。
本稿では,拡張YOLOv10フレームワーク上に構築したエンドツーエンド検出モデルを提案する。
論文 参考訳(メタデータ) (2024-08-31T08:43:37Z) - FishMOT: A Simple and Effective Method for Fish Tracking Based on IoU
Matching [11.39414015803651]
FishMOTは、オブジェクト検出とObjectoUマッチングを組み合わせた、新しい魚追跡手法である。
本手法は, 各種環境および魚の数に対して, 優れた堅牢性と汎用性を示す。
論文 参考訳(メタデータ) (2023-09-06T13:16:41Z) - Learning Heavily-Degraded Prior for Underwater Object Detection [59.5084433933765]
本稿では、検出器フレンドリーな画像から、転送可能な事前知識を求める。
これは、検出器フレンドリー(DFUI)と水中画像の高度に劣化した領域が、特徴分布のギャップがあることを統計的に観察したものである。
高速かつパラメータの少ない本手法は変圧器型検出器よりも優れた性能を保っている。
論文 参考訳(メタデータ) (2023-08-24T12:32:46Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Efficient Decoder-free Object Detection with Transformers [75.00499377197475]
視覚変換器(ViT)は、物体検出アプローチのランドスケープを変化させている。
本稿では,デコーダフリー完全トランス(DFFT)オブジェクト検出器を提案する。
DFFT_SMALLは、トレーニングおよび推論段階で高い効率を達成する。
論文 参考訳(メタデータ) (2022-06-14T13:22:19Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z) - RepPoints V2: Verification Meets Regression for Object Detection [65.120827759348]
本稿ではRepPointsのローカライズ予測に検証タスクを導入する。
RepPoints v2は、オリジナルのRepPointsよりも約2.0mAPの一貫性のある改善を提供する。
提案手法は、インスタンスセグメンテーションのようなアプリケーションと同様に、他のオブジェクト検出フレームワークをより高めることができることを示す。
論文 参考訳(メタデータ) (2020-07-16T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。