論文の概要: Zero-shot Shark Tracking and Biometrics from Aerial Imagery
- arxiv url: http://arxiv.org/abs/2501.05717v1
- Date: Fri, 10 Jan 2025 05:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:28:02.408693
- Title: Zero-shot Shark Tracking and Biometrics from Aerial Imagery
- Title(参考訳): 航空画像からのゼロショットシャーク追跡とバイオメトリックス
- Authors: Chinmay K Lalgudi, Mark E Leone, Jaden V Clark, Sergio Madrigal-Mora, Mario Espinoza,
- Abstract要約: 海洋動物の空中画像を分析する機械学習モデルの開発は、データセットごとに新しいモデルを構築し、テストし、デプロイする古典的なパラダイムに従っている。
本稿では,Segment Anything Model 2 (SAM2) の映像理解とContrastive Language- Image Pre-Turning (CLIP) の視覚言語機能を活用した Frame Level ALIgment and tRacking (FLAIR) を紹介する。
太平洋の看護師サメの18,000枚のドローン画像のデータセットを用いて、FLAIRと比較するために最先端の物体検出モデルを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The recent widespread adoption of drones for studying marine animals provides opportunities for deriving biological information from aerial imagery. The large scale of imagery data acquired from drones is well suited for machine learning (ML) analysis. Development of ML models for analyzing marine animal aerial imagery has followed the classical paradigm of training, testing, and deploying a new model for each dataset, requiring significant time, human effort, and ML expertise. We introduce Frame Level ALIgment and tRacking (FLAIR), which leverages the video understanding of Segment Anything Model 2 (SAM2) and the vision-language capabilities of Contrastive Language-Image Pre-training (CLIP). FLAIR takes a drone video as input and outputs segmentation masks of the species of interest across the video. Notably, FLAIR leverages a zero-shot approach, eliminating the need for labeled data, training a new model, or fine-tuning an existing model to generalize to other species. With a dataset of 18,000 drone images of Pacific nurse sharks, we trained state-of-the-art object detection models to compare against FLAIR. We show that FLAIR massively outperforms these object detectors and performs competitively against two human-in-the-loop methods for prompting SAM2, achieving a Dice score of 0.81. FLAIR readily generalizes to other shark species without additional human effort and can be combined with novel heuristics to automatically extract relevant information including length and tailbeat frequency. FLAIR has significant potential to accelerate aerial imagery analysis workflows, requiring markedly less human effort and expertise than traditional machine learning workflows, while achieving superior accuracy. By reducing the effort required for aerial imagery analysis, FLAIR allows scientists to spend more time interpreting results and deriving insights about marine ecosystems.
- Abstract(参考訳): 近年、海洋動物研究にドローンが広く採用されていることは、航空画像から生物学的情報を引き出す機会となっている。
ドローンから取得した大規模な画像データは、機械学習(ML)分析によく適している。
海洋動物の航空画像を分析するためのMLモデルの開発は、訓練、テスト、各データセットの新しいモデル展開という古典的なパラダイムに従っており、かなりの時間、人的労力、MLの専門知識を必要としている。
本稿では,Segment Anything Model 2 (SAM2) の映像理解と Contrastive Language- Image Pre-Torning (CLIP) の視覚言語機能を活用した Frame Level ALIgment and tRacking (FLAIR) を紹介する。
FLAIRはドローンのビデオを入力として、ビデオ全体で興味のある種類のセグメンテーションマスクを出力する。
特にFLAIRはゼロショットのアプローチを採用しており、ラベル付きデータの必要性を排除したり、新しいモデルを訓練したり、他の種に一般化するために既存のモデルを微調整したりする。
太平洋の看護師サメの18,000枚のドローン画像のデータセットを用いて、FLAIRと比較するために最先端の物体検出モデルを訓練した。
FLAIRはこれらの物体検出器を大幅に上回り、SAM2を誘導する2つのヒト・イン・ザ・ループ法と競合し、Diceスコアが0.81であることを示す。
FLAIRは人間の努力なしに容易に他のサメ種に一般化し、新しいヒューリスティックと組み合わせることで、長さや尾拍の周波数を含む関連情報を自動抽出することができる。
FLAIRは、空中画像解析ワークフローを加速する大きな可能性を秘めており、従来の機械学習ワークフローよりも人的労力や専門知識が著しく少なく、精度も優れている。
航空画像解析に必要な労力を減らすことで、FLAIRは結果を解釈し、海洋生態系についての洞察を得るのにより多くの時間を費やすことができる。
関連論文リスト
- Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM [62.85895749882285]
海洋動物(英: Marine Animal、MAS)は、海洋環境に生息する動物を分類する動物である。
高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。
提案手法は,広く使用されている5つのMASデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-07T15:34:40Z) - SatSynth: Augmenting Image-Mask Pairs through Diffusion Models for Aerial Semantic Segmentation [69.42764583465508]
我々は,地球観測における注釈付きデータの不足に対処するために,生成的画像拡散の可能性を探る。
我々の知る限りでは、衛星セグメンテーションのための画像と対応するマスクの両方を最初に生成する。
論文 参考訳(メタデータ) (2024-03-25T10:30:22Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - Whale Detection Enhancement through Synthetic Satellite Images [13.842008598751445]
実際のデータのみをトレーニングに使用した場合と比較して,捕鯨の検出において15%の性能向上が達成できることが示されている。
シミュレーションプラットフォームSeaDroneSim2のコードをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2023-08-15T13:35:29Z) - Object counting from aerial remote sensing images: application to
wildlife and marine mammals [4.812718493682454]
人類形成活動は野生生物や海洋動物相に脅威をもたらす。
本研究は、深層学習技術を用いて、動物の計数作業を自動化する。
複雑な画像背景条件にもかかわらず、モデルは正確に動物を特定する。
論文 参考訳(メタデータ) (2023-06-17T23:14:53Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Rare Wildlife Recognition with Self-Supervised Representation Learning [0.0]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNetで事前訓練された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-29T17:57:38Z) - A deep neural network for multi-species fish detection using multiple
acoustic cameras [0.0]
本稿では,CNN (Convolutional Neural Network) と従来のCV (Computer Vision) 技術の両方を活用する新しい手法を提案する。
パイプラインは、音像を前処理して2つの特徴を抽出し、信号をローカライズし、検出性能を向上させる。
YOLOv3ベースのモデルは、2つの一般的な音響カメラで記録された複数の種の魚のデータを用いて訓練された。
論文 参考訳(メタデータ) (2021-09-22T11:47:24Z) - Self-Supervised Pretraining and Controlled Augmentation Improve Rare
Wildlife Recognition in UAV Images [9.220908533011068]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNet 上で事前学習された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-08-17T12:14:28Z) - Zoo-Tuning: Adaptive Transfer from a Zoo of Models [82.9120546160422]
Zoo-Tuningは、事前訓練されたモデルのパラメータをターゲットタスクに適応的に転送することを学ぶ。
我々は、強化学習、画像分類、顔のランドマーク検出など、様々なタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-29T14:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。