論文の概要: TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos
- arxiv url: http://arxiv.org/abs/2211.09950v1
- Date: Thu, 17 Nov 2022 23:55:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 15:02:17.532953
- Title: TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos
- Title(参考訳): tempnet:ビデオにおける動物行動検出への時間的注意
- Authors: Declan McIntosh and Tunai Porto Marques and Alexandra Branzan Albu and
Rodney Rountree and Fabio De Leo
- Abstract要約: 本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
- 参考スコア(独自算出の注目度): 63.85815474157357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in cabled ocean observatories have increased the quality
and prevalence of underwater videos; this data enables the extraction of
high-level biologically relevant information such as species' behaviours.
Despite this increase in capability, most modern methods for the automatic
interpretation of underwater videos focus only on the detection and counting
organisms. We propose an efficient computer vision- and deep learning-based
method for the detection of biological behaviours in videos. TempNet uses an
encoder bridge and residual blocks to maintain model performance with a
two-staged, spatial, then temporal, encoder. TempNet also presents temporal
attention during spatial encoding as well as Wavelet Down-Sampling
pre-processing to improve model accuracy. Although our system is designed for
applications to diverse fish behaviours (i.e, is generic), we demonstrate its
application to the detection of sablefish (Anoplopoma fimbria) startle events.
We compare the proposed approach with a state-of-the-art end-to-end video
detection method (ReMotENet) and a hybrid method previously offered exclusively
for the detection of sablefish's startle events in videos from an existing
dataset. Results show that our novel method comfortably outperforms the
comparison baselines in multiple metrics, reaching a per-clip accuracy and
precision of 80% and 0.81, respectively. This represents a relative improvement
of 31% in accuracy and 27% in precision over the compared methods using this
dataset. Our computational pipeline is also highly efficient, as it can process
each 4-second video clip in only 38ms. Furthermore, since it does not employ
features specific to sablefish startle events, our system can be easily
extended to other behaviours in future works.
- Abstract(参考訳): 近年の海底観測装置の進歩により、水中ビデオの品質や普及度が向上し、種行動などの生物学的に重要な情報を抽出できるようになった。
この能力の増大にもかかわらず、水中ビデオの自動解釈の最も現代的な方法は、生物の検出と数えることのみに焦点を当てている。
本研究では,映像中の生体行動を検出するための効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
tempnetはエンコーダブリッジと残留ブロックを使用して、2段、空間、そして時間的エンコーダでモデル性能を維持する。
tempnetはまた、空間符号化の時間的注意とウェーブレットのダウンサンプリング前処理によってモデルの精度が向上する。
本システムは多様な魚類行動(すなわちジェネリック)に応用するために設計されているが,サブルフィッシュ(Anoplopoma fimbria)幼虫の検出への応用を実証する。
提案手法を,既存のデータセットから映像中のサブルフィッシュの発芽イベントを検出するためのハイブリッド手法と,最先端のエンドツーエンドビデオ検出手法(ReMotENet)と比較した。
その結果, 提案手法は, 複数の測定値において比較基準線を快適に上回り, 精度は80%, 精度は0.81となった。
これは、このデータセットを用いた比較手法に比べて、精度が31%、精度が27%の相対的な改善を示している。
計算パイプラインは4秒のビデオクリップをわずか38ミリ秒で処理できるので、非常に効率的です。
さらに,サブルフィッシュ・スタートルイベントに特有な機能を導入していないため,本システムは今後の作業において,他の行動にも容易に拡張できる。
関連論文リスト
- Practical Video Object Detection via Feature Selection and Aggregation [18.15061460125668]
ビデオオブジェクト検出(VOD)は、オブジェクトの外観における高いフレーム間変動と、いくつかのフレームにおける多様な劣化を懸念する必要がある。
現代のアグリゲーション法のほとんどは、高い計算コストに苦しむ2段階検出器用に調整されている。
この研究は、特徴選択と集約の非常に単純だが強力な戦略を考案し、限界計算コストでかなりの精度を得る。
論文 参考訳(メタデータ) (2024-07-29T02:12:11Z) - Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。
本研究では,探索過程を近似するカスケード把握モデルを構築した。
大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:06:47Z) - It Takes Two: Masked Appearance-Motion Modeling for Self-supervised
Video Transformer Pre-training [76.69480467101143]
自己監督型ビデオトランスフォーマーの事前トレーニングは、最近マスク・アンド・予測パイプラインの恩恵を受けている。
本稿では,映像中の動きの手がかりを余分な予測対象として明示的に調査し,マスケッド・出現運動モデリングフレームワークを提案する。
一般的なビデオ表現を学習し、Kinects-400で82.3%、Something V2で71.3%、UCF101で91.5%、HMDB51で62.5%を達成する。
論文 参考訳(メタデータ) (2022-10-11T08:05:18Z) - Real-world Video Anomaly Detection by Extracting Salient Features in
Videos [0.0]
既存の方法は、ビデオの各セグメントの正常/異常状態を決定するために、MIL(Multiple-instance Learning)を使用していた。
本稿では,全ての入力セグメントから正常/異常を判断する上で重要な特徴を自動的に抽出する自己認識機構を備えた軽量モデルを提案する。
提案手法は,最先端手法と同等あるいは優れた精度を達成できる。
論文 参考訳(メタデータ) (2022-09-14T06:03:09Z) - ETAD: A Unified Framework for Efficient Temporal Action Detection [70.21104995731085]
時間的行動検出(TAD)のようなトリミングされていないビデオ理解は、しばしば計算資源に対する膨大な需要の苦痛に悩まされる。
我々は、効率的なエンド・ツー・エンドの時間的行動検出(ETAD)のための統合されたフレームワークを構築している。
ETADはTHUMOS-14とActivityNet-1.3の両方で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-05-14T21:16:21Z) - A deep neural network for multi-species fish detection using multiple
acoustic cameras [0.0]
本稿では,CNN (Convolutional Neural Network) と従来のCV (Computer Vision) 技術の両方を活用する新しい手法を提案する。
パイプラインは、音像を前処理して2つの特徴を抽出し、信号をローカライズし、検出性能を向上させる。
YOLOv3ベースのモデルは、2つの一般的な音響カメラで記録された複数の種の魚のデータを用いて訓練された。
論文 参考訳(メタデータ) (2021-09-22T11:47:24Z) - AdaFuse: Adaptive Temporal Fusion Network for Efficient Action
Recognition [68.70214388982545]
テンポラルモデリングは、効率的なビデオアクション認識の鍵である。
我々はAdaFuseと呼ばれる適応時間融合ネットワークを導入し、現在の特徴マップと過去の特徴マップからチャネルを融合する。
我々の手法は、最先端の手法に匹敵する精度で、約40%の計算節約を達成できる。
論文 参考訳(メタデータ) (2021-02-10T23:31:02Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z) - Temperate Fish Detection and Classification: a Deep Learning based
Approach [6.282069822653608]
本研究では,2段階の深層学習手法を提案する。
最初のステップは、種や性別によらず、画像中の各魚を検出することです。
第2のステップでは、画像中の各魚を事前フィルタリングせずに分類するために、Squeeze-and-Excitation (SE)アーキテクチャを備えた畳み込みニューラルネットワーク(CNN)を採用する。
論文 参考訳(メタデータ) (2020-05-14T12:40:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。