論文の概要: Zero-shot Shark Tracking and Biometrics from Aerial Imagery
- arxiv url: http://arxiv.org/abs/2501.05717v1
- Date: Fri, 10 Jan 2025 05:29:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 18:34:15.141432
- Title: Zero-shot Shark Tracking and Biometrics from Aerial Imagery
- Title(参考訳): 航空画像からのゼロショットシャーク追跡とバイオメトリックス
- Authors: Chinmay K Lalgudi, Mark E Leone, Jaden V Clark, Sergio Madrigal-Mora, Mario Espinoza,
- Abstract要約: 海洋動物の空中画像を分析する機械学習モデルの開発は、データセットごとに新しいモデルを構築し、テストし、デプロイする古典的なパラダイムに従っている。
本稿では,Segment Anything Model 2 (SAM2) の映像理解とContrastive Language- Image Pre-Turning (CLIP) の視覚言語機能を活用した Frame Level ALIgment and tRacking (FLAIR) を紹介する。
太平洋の看護師サメの18,000枚のドローン画像のデータセットを用いて、FLAIRと比較するために最先端の物体検出モデルを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent widespread adoption of drones for studying marine animals provides opportunities for deriving biological information from aerial imagery. The large scale of imagery data acquired from drones is well suited for machine learning (ML) analysis. Development of ML models for analyzing marine animal aerial imagery has followed the classical paradigm of training, testing, and deploying a new model for each dataset, requiring significant time, human effort, and ML expertise. We introduce Frame Level ALIgment and tRacking (FLAIR), which leverages the video understanding of Segment Anything Model 2 (SAM2) and the vision-language capabilities of Contrastive Language-Image Pre-training (CLIP). FLAIR takes a drone video as input and outputs segmentation masks of the species of interest across the video. Notably, FLAIR leverages a zero-shot approach, eliminating the need for labeled data, training a new model, or fine-tuning an existing model to generalize to other species. With a dataset of 18,000 drone images of Pacific nurse sharks, we trained state-of-the-art object detection models to compare against FLAIR. We show that FLAIR massively outperforms these object detectors and performs competitively against two human-in-the-loop methods for prompting SAM2, achieving a Dice score of 0.81. FLAIR readily generalizes to other shark species without additional human effort and can be combined with novel heuristics to automatically extract relevant information including length and tailbeat frequency. FLAIR has significant potential to accelerate aerial imagery analysis workflows, requiring markedly less human effort and expertise than traditional machine learning workflows, while achieving superior accuracy. By reducing the effort required for aerial imagery analysis, FLAIR allows scientists to spend more time interpreting results and deriving insights about marine ecosystems.
- Abstract(参考訳): 近年、海洋動物研究にドローンが広く採用されていることは、航空画像から生物学的情報を引き出す機会となっている。
ドローンから取得した大規模な画像データは、機械学習(ML)分析によく適している。
海洋動物の航空画像を分析するためのMLモデルの開発は、訓練、テスト、各データセットの新しいモデル展開という古典的なパラダイムに従っており、かなりの時間、人的労力、MLの専門知識を必要としている。
本稿では,Segment Anything Model 2 (SAM2) の映像理解と Contrastive Language- Image Pre-Torning (CLIP) の視覚言語機能を活用した Frame Level ALIgment and tRacking (FLAIR) を紹介する。
FLAIRはドローンのビデオを入力として、ビデオ全体で興味のある種類のセグメンテーションマスクを出力する。
特にFLAIRはゼロショットのアプローチを採用しており、ラベル付きデータの必要性を排除したり、新しいモデルを訓練したり、他の種に一般化するために既存のモデルを微調整したりする。
太平洋の看護師サメの18,000枚のドローン画像のデータセットを用いて、FLAIRと比較するために最先端の物体検出モデルを訓練した。
FLAIRはこれらの物体検出器を大幅に上回り、SAM2を誘導する2つのヒト・イン・ザ・ループ法と競合し、Diceスコアが0.81であることを示す。
FLAIRは人間の努力なしに容易に他のサメ種に一般化し、新しいヒューリスティックと組み合わせることで、長さや尾拍の周波数を含む関連情報を自動抽出することができる。
FLAIRは、空中画像解析ワークフローを加速する大きな可能性を秘めており、従来の機械学習ワークフローよりも人的労力や専門知識が著しく少なく、精度も優れている。
航空画像解析に必要な労力を減らすことで、FLAIRは結果を解釈し、海洋生態系についての洞察を得るのにより多くの時間を費やすことができる。
関連論文リスト
- UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - From underwater to aerial: a novel multi-scale knowledge distillation approach for coral reef monitoring [1.0644791181419937]
本研究は,サンゴ礁のサンゴ礁モニタリングに,小型水中画像と中規模空中画像を統合した新しいマルチスケールアプローチを提案する。
変圧器を用いた深層学習モデルは水中画像に基づいて訓練され、様々なサンゴ型、関連する動物相、生息地を含む31のクラスの存在を検出する。
以上の結果から,本手法はサンゴのサンゴ類型および生息域の予測において高い精度を達成し,より大規模なサンゴ礁地域への細分化を成功裏に進めることが示唆された。
論文 参考訳(メタデータ) (2025-02-25T06:12:33Z) - An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。
本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。
バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文 参考訳(メタデータ) (2024-04-18T14:14:44Z) - Fantastic Animals and Where to Find Them: Segment Any Marine Animal with Dual SAM [62.85895749882285]
海洋動物(英: Marine Animal、MAS)は、海洋環境に生息する動物を分類する動物である。
高性能MASのための新しい特徴学習フレームワークDual-SAMを提案する。
提案手法は,広く使用されている5つのMASデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-07T15:34:40Z) - HawkI: Homography & Mutual Information Guidance for 3D-free Single Image to Aerial View [67.8213192993001]
本稿では,テキストと模範画像から空中視像を合成するためのHawkeIを提案する。
HawkIは、予め訓練されたテキストから2次元の安定拡散モデルに入力画像からの視覚的特徴をブレンドする。
推測において、HawkeIは、入力画像の意味的詳細を忠実に複製するために生成されたイメージを操るために、ユニークな相互情報ガイダンスの定式化を用いる。
論文 参考訳(メタデータ) (2023-11-27T01:41:25Z) - Learning Human Action Recognition Representations Without Real Humans [66.61527869763819]
そこで本研究では,仮想人間を含む合成データを用いて,実世界の映像を活用してモデルを事前学習するベンチマークを提案する。
次に、このデータに基づいて学習した表現を、下流行動認識ベンチマークの様々なセットに転送可能であるかを評価する。
私たちのアプローチは、以前のベースラインを最大5%上回ります。
論文 参考訳(メタデータ) (2023-11-10T18:38:14Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - Whale Detection Enhancement through Synthetic Satellite Images [13.842008598751445]
実際のデータのみをトレーニングに使用した場合と比較して,捕鯨の検出において15%の性能向上が達成できることが示されている。
シミュレーションプラットフォームSeaDroneSim2のコードをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2023-08-15T13:35:29Z) - Object counting from aerial remote sensing images: application to
wildlife and marine mammals [4.812718493682454]
人類形成活動は野生生物や海洋動物相に脅威をもたらす。
本研究は、深層学習技術を用いて、動物の計数作業を自動化する。
複雑な画像背景条件にもかかわらず、モデルは正確に動物を特定する。
論文 参考訳(メタデータ) (2023-06-17T23:14:53Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Rare Wildlife Recognition with Self-Supervised Representation Learning [0.0]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNetで事前訓練された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-10-29T17:57:38Z) - SuperAnimal pretrained pose estimation models for behavioral analysis [42.206265576708255]
行動の定量化は神経科学、獣医学、動物保護活動など様々な応用において重要である。
我々は、SuperAnimalと呼ばれる新しい手法で統一基盤モデルを開発するための一連の技術革新を提案する。
論文 参考訳(メタデータ) (2022-03-14T18:46:57Z) - Self-Supervised Pretraining and Controlled Augmentation Improve Rare
Wildlife Recognition in UAV Images [9.220908533011068]
本稿では,自己指導型プレトレーニングに頼って,必要なトレーニングデータの量を削減する手法を提案する。
MoCo, CLD, および幾何拡張の組み合わせは, ImageNet 上で事前学習された従来のモデルよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-08-17T12:14:28Z) - Zoo-Tuning: Adaptive Transfer from a Zoo of Models [82.9120546160422]
Zoo-Tuningは、事前訓練されたモデルのパラメータをターゲットタスクに適応的に転送することを学ぶ。
我々は、強化学習、画像分類、顔のランドマーク検出など、様々なタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-29T14:09:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。