論文の概要: Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
- arxiv url: http://arxiv.org/abs/2512.08400v2
- Date: Thu, 11 Dec 2025 11:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 14:11:15.198346
- Title: Towards Visual Re-Identification of Fish using Fine-Grained Classification for Electronic Monitoring in Fisheries
- Title(参考訳): 細粒度分類を用いた漁業における電子モニタリングによる魚の視覚的再同定に向けて
- Authors: Samitha Nuwan Thilakarathna, Ercan Avsar, Martin Mathias Nielsen, Malte Pedersen,
- Abstract要約: 我々は,新しいAutoFishデータセットを用いて,魚の識別を自動化するための最適化されたディープラーニングパイプラインを開発した。
我々は、Vision TransformerベースのSwin-Tアーキテクチャが、畳み込みニューラルネットワークベースのResNet-50より一貫して優れていることを実証した。
詳細な分析によると、主な課題は、同じ種の視覚的に類似した個体を識別することである。
- 参考スコア(独自算出の注目度): 4.007351600492542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate fisheries data are crucial for effective and sustainable marine resource management. With the recent adoption of Electronic Monitoring (EM) systems, more video data is now being collected than can be feasibly reviewed manually. This paper addresses this challenge by developing an optimized deep learning pipeline for automated fish re-identification (Re-ID) using the novel AutoFish dataset, which simulates EM systems with conveyor belts with six similarly looking fish species. We demonstrate that key Re-ID metrics (R1 and mAP@k) are substantially improved by using hard triplet mining in conjunction with a custom image transformation pipeline that includes dataset-specific normalization. By employing these strategies, we demonstrate that the Vision Transformer-based Swin-T architecture consistently outperforms the Convolutional Neural Network-based ResNet-50, achieving peak performance of 41.65% mAP@k and 90.43% Rank-1 accuracy. An in-depth analysis reveals that the primary challenge is distinguishing visually similar individuals of the same species (Intra-species errors), where viewpoint inconsistency proves significantly more detrimental than partial occlusion. The source code and documentation are available at: https://github.com/msamdk/Fish_Re_Identification.git
- Abstract(参考訳): 正確な漁業データは、効果的で持続可能な海洋資源管理に不可欠である。
最近のElectronic Monitoring (EM)システムの採用により、手動でレビューできるよりも多くのビデオデータが収集されている。
本稿では,6種の類似した魚種を持つコンベアベルトを用いたEMシステムを用いた新しいAutoFishデータセットを用いて,魚の自動識別(Re-ID)のための最適化深層学習パイプラインを開発することで,この問題に対処する。
我々は、データセット固有の正規化を含むカスタム画像変換パイプラインとともに、ハードトリプルトマイニングを使用することで、重要なRe-IDメトリクス(R1とmAP@k)が大幅に改善されることを実証した。
これらの戦略を用いることで、Vision TransformerベースのSwin-Tアーキテクチャは畳み込みニューラルネットワークベースのResNet-50より一貫して優れ、最大性能は41.65% mAP@kと90.43% Rank-1の精度である。
詳細な分析によると、主要な課題は同一種の視覚的に類似した個体(イントラ種エラー)を識別することである。
ソースコードとドキュメントは、https://github.com/msamdk/Fish_Re_Identification.gitで入手できる。
関連論文リスト
- FishDetector-R1: Unified MLLM-Based Framework with Reinforcement Fine-Tuning for Weakly Supervised Fish Detection, Segmentation, and Counting [12.040327353059945]
魚の発見, セグメンテーション, 計数のためのMLLMベースの統合フレームワークである FishDetector-R1 を紹介する。
DeepFishデータセットでは,ベースラインよりも大幅に向上し,APを20%,mIoUを10%,MAEを30%,GAMEを35%削減した。
論文 参考訳(メタデータ) (2025-12-01T06:23:56Z) - FishDet-M: A Unified Large-Scale Benchmark for Robust Fish Detection and CLIP-Guided Model Selection in Diverse Aquatic Visual Domains [1.3791394805787949]
FishDet-Mは、様々な水生環境にまたがる13の公開データセットを含む、魚検出のための最大の統一されたベンチマークである。
すべてのデータは、境界ボックスとセグメンテーションマスクの両方を持つCOCOスタイルのアノテーションを使用して調和する。
FishDet-Mは、複雑な水シーンにおけるオブジェクト検出を評価するための標準化され再現可能なプラットフォームを確立する。
論文 参考訳(メタデータ) (2025-07-23T18:32:01Z) - FMRFT: Fusion Mamba and DETR for Query Time Sequence Intersection Fish Tracking [3.599033310931609]
本稿では,複雑なマルチシナリオ・スタージョン追跡データセットを確立する。
リアルタイムの魚追跡ソリューションであるFMRFTモデルを導入している。
このモデルは、ビデオメモリ消費の少ないMamba In Mambaアーキテクチャを取り入れている。
論文 参考訳(メタデータ) (2024-09-02T10:33:45Z) - Open-Set Deepfake Detection: A Parameter-Efficient Adaptation Method with Forgery Style Mixture [81.93945602120453]
本稿では,顔偽造検出に汎用的かつパラメータ効率の高い手法を提案する。
フォージェリー・ソース・ドメインの多様性を増大させるフォージェリー・ミックス・フォーミュレーションを設計する。
設計したモデルは、トレーニング可能なパラメータを著しく減らし、最先端の一般化性を実現する。
論文 参考訳(メタデータ) (2024-08-23T01:53:36Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。