論文の概要: MARINE: A Computer Vision Model for Detecting Rare Predator-Prey Interactions in Animal Videos
- arxiv url: http://arxiv.org/abs/2407.18289v2
- Date: Mon, 5 Aug 2024 06:53:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-06 20:09:27.114477
- Title: MARINE: A Computer Vision Model for Detecting Rare Predator-Prey Interactions in Animal Videos
- Title(参考訳): MARINE - 動物ビデオにおける希少な捕食者・捕食者の相互作用を検出するコンピュータビジョンモデル
- Authors: Zsófia Katona, Seyed Sahand Mohammadi Ziabari, Fatemeh Karimi Nejadasl,
- Abstract要約: この論文はモデルMARINEを提案することによってギャップに対処する。
高速動物行動用に設計されたモーションベースのフレーム選択と、訓練可能な分類ヘッドを備えたDINOv2特徴抽出を利用する。
魚の動画における捕食者攻撃の特定において、ビデオMAEよりも優れています。
- 参考スコア(独自算出の注目度): 0.5999777817331317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encounters between predator and prey play an essential role in ecosystems, but their rarity makes them difficult to detect in video recordings. Although advances in action recognition (AR) and temporal action detection (AD), especially transformer-based models and vision foundation models, have achieved high performance on human action datasets, animal videos remain relatively under-researched. This thesis addresses this gap by proposing the model MARINE, which utilizes motion-based frame selection designed for fast animal actions and DINOv2 feature extraction with a trainable classification head for action recognition. MARINE outperforms VideoMAE in identifying predator attacks in videos of fish, both on a small and specific coral reef dataset (81.53\% against 52.64\% accuracy), and on a subset of the more extensive Animal Kingdom dataset (94.86\% against 83.14\% accuracy). In a multi-label setting on a representative sample of Animal Kingdom, MARINE achieves 23.79\% mAP, positioning it mid-field among existing benchmarks. Furthermore, in an AD task on the coral reef dataset, MARINE achieves 80.78\% AP (against VideoMAE's 34.89\%) although at a lowered t-IoU threshold of 25\%. Therefore, despite room for improvement, MARINE offers an effective starter framework to apply to AR and AD tasks on animal recordings and thus contribute to the study of natural ecosystems.
- Abstract(参考訳): 捕食者と獲物の交尾は生態系において重要な役割を担っているが、その希少性はビデオ記録における検出を困難にしている。
行動認識(AR)と時間的行動検出(AD)の進歩、特にトランスフォーマーベースモデルと視覚基盤モデルは、人間の行動データセット上で高いパフォーマンスを達成しているが、動物ビデオは比較的研究が進んでいない。
この論文は、高速動物行動用に設計されたモーションベースのフレーム選択とDINOv2特徴抽出と、訓練可能な分類ヘッドを用いて行動認識を行うモデルであるMARINEを提案することで、このギャップに対処する。
MARINEは、小さなサンゴ礁のサンゴ礁のデータセット (81.53\%対52.64\%) と、より広範な動物王国のデータセット (94.86\%対83.14\%) のサブセットにおいて、魚の動画における捕食者攻撃の識別において、ビデオMAEを上回っている。
動物王国の代表標本のマルチラベル設定では、MARINEは23.79 % mAPを獲得し、既存のベンチマークの中間に位置する。
さらに、サンゴ礁データセットのADタスクでは、MARINEは80.78 % AP(VideoMAEの34.89 %)を達成しているが、t-IoU閾値は25 %である。
したがって、改善の余地はあるものの、MARINEは、動物記録におけるARおよびADタスクに適用するための効果的なスターターフレームワークを提供し、それによって自然生態系の研究に寄与する。
関連論文リスト
- FMRFT: Fusion Mamba and DETR for Query Time Sequence Intersection Fish Tracking [3.599033310931609]
本稿では,複雑なマルチシナリオ・スタージョン追跡データセットを確立する。
リアルタイムの魚追跡ソリューションであるFMRFTモデルを導入している。
このモデルは、ビデオメモリ消費の少ないMamba In Mambaアーキテクチャを取り入れている。
論文 参考訳(メタデータ) (2024-09-02T10:33:45Z) - Recurrence over Video Frames (RoVF) for the Re-identification of Meerkats [4.512615837610558]
本稿では、Perceiverアーキテクチャに基づく繰り返しヘッドを用いて、ビデオクリップから埋め込みを反復的に構築するRecurrence over Video Frames (RoVF)という手法を提案する。
我々は、ウェリントン動物園で収集されたミーアカットのデータセット上で、DINOv2トランスフォーマーアーキテクチャに基づいて、この手法と様々なモデルを検証した。
提案手法は,最高の DINOv2 モデル (42%$) よりも高い 49%$ のトップ1再同定精度を実現する。
論文 参考訳(メタデータ) (2024-06-18T18:44:19Z) - Prompt When the Animal is: Temporal Animal Behavior Grounding with Positional Recovery Training [23.42400768680185]
時間的接地はマルチモーダル学習において重要であるが、動物行動データに適用した場合に課題が生じる。
本稿では,訓練中の特定の動物行動の開始と終了をモデルとして,新たな位置回復訓練フレームワーク(Port)を提案する。
動物王国のデータセットの実験では、ポートの有効性が示され、38.52のIoU@0.3が達成された。
論文 参考訳(メタデータ) (2024-05-09T03:23:47Z) - WhaleNet: a Novel Deep Learning Architecture for Marine Mammals Vocalizations on Watkins Marine Mammal Sound Database [49.1574468325115]
textbfWhaleNet (Wavelet Highly Adaptive Learning Ensemble Network) は海洋哺乳動物の発声を分類するための高度な深層アンサンブルアーキテクチャである。
既存のアーキテクチャよりも8-10%の精度で分類精度を向上し、分類精度は9,7.61%である。
論文 参考訳(メタデータ) (2024-02-20T11:36:23Z) - Lightweight Fish Classification Model for Sustainable Marine Management:
Indonesian Case [2.94944680995069]
オーバーフィッシングは 持続可能な海洋開発における 主要な問題の一つです
本研究は,保護魚種の識別を支援する魚類分類技術の進歩について提案する。
インドネシア列島沖で発見された魚の37,462枚の画像のラベル付きデータセットを収集した。
論文 参考訳(メタデータ) (2024-01-04T13:56:54Z) - PMI Sampler: Patch Similarity Guided Frame Selection for Aerial Action
Recognition [52.78234467516168]
本稿では、隣接フレーム間の動きバイアスを定量化するために、パッチ相互情報(PMI)スコアの概念を導入する。
シフトリークReLuと累積分布関数を用いた適応フレーム選択方式を提案する。
本手法は,UAV-Humanの2.2~13.8%,NEC Droneの6.8%,Diving48データセットの9.0%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-04-14T00:01:11Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.87449881852062]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。
このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。
我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文 参考訳(メタデータ) (2022-06-12T07:18:36Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - Movement Tracks for the Automatic Detection of Fish Behavior in Videos [63.85815474157357]
水中ビデオでサブルフィッシュ(Anoplopoma fimbria)の発芽行動のデータセットを提供し,その上での深層学習(DL)法による行動検出について検討した。
提案する検出システムは,Long Short-Term Memory(LSTM)ネットワークを用いて,サブルフィッシュの起動動作を識別する。
論文 参考訳(メタデータ) (2020-11-28T05:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。