論文の概要: Triple-stream Deep Metric Learning of Great Ape Behavioural Actions
- arxiv url: http://arxiv.org/abs/2301.02642v1
- Date: Fri, 6 Jan 2023 18:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 23:15:24.925874
- Title: Triple-stream Deep Metric Learning of Great Ape Behavioural Actions
- Title(参考訳): 大型類人猿行動のトリプルストリームディープメトリック学習
- Authors: Otto Brookes, Majid Mirmehdi, Hjalmar K\"uhl, Tilo Burghardt
- Abstract要約: 本研究では,類人猿の行動行動認識のための最初の計量学習システムを提案する。
提案する3重ストリーム埋め込みアーキテクチャは、野生で直接撮影されたカメラトラップビデオで動作する。
- 参考スコア(独自算出の注目度): 3.8820728151341717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the first metric learning system for the recognition of great ape
behavioural actions. Our proposed triple stream embedding architecture works on
camera trap videos taken directly in the wild and demonstrates that the
utilisation of an explicit DensePose-C chimpanzee body part segmentation stream
effectively complements traditional RGB appearance and optical flow streams. We
evaluate system variants with different feature fusion techniques and long-tail
recognition approaches. Results and ablations show performance improvements of
~12% in top-1 accuracy over previous results achieved on the PanAf-500 dataset
containing 180,000 manually annotated frames across nine behavioural actions.
Furthermore, we provide a qualitative analysis of our findings and augment the
metric learning system with long-tail recognition techniques showing that
average per class accuracy -- critical in the domain -- can be improved by ~23%
compared to the literature on that dataset. Finally, since our embedding spaces
are constructed as metric, we provide first data-driven visualisations of the
great ape behavioural action spaces revealing emerging geometry and topology.
We hope that the work sparks further interest in this vital application area of
computer vision for the benefit of endangered great apes.
- Abstract(参考訳): 本稿では,類人猿の行動認識のための最初のメトリック学習システムを提案する。
提案手法は,DensePose-Cチンパンジーのボディー部分分割ストリームの利用により,従来のRGBの外観や光フローストリームを効果的に補完することを示す。
異なる特徴融合手法と長い尾認識手法を用いてシステム変異を評価した。
PanAf-500データセットでは、9つの動作アクションに対して180,000のアノテートフレームが手作業で記述されているため、トップ1の精度が約12%向上した。
さらに,本研究の結果を定性的に分析し,そのデータを用いた文献と比較して,クラス毎の平均精度が約23%向上できることを示すロングテール認識手法を用いて,メートル法学習システムを強化した。
最後に、埋め込み空間はメートル法として構築されるので、新しい幾何学とトポロジーを示す巨大な猿の行動行動空間の最初のデータ駆動可視化を提供する。
この研究が、絶滅危惧猿の利益のために、コンピュータビジョンのこの重要な応用分野へのさらなる関心を喚起することを願っている。
関連論文リスト
- Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - VEDIT: Latent Prediction Architecture For Procedural Video Representation Learning [59.68917139718813]
そこで本研究では,市販の冷凍型ビジュアルエンコーダを用いて,予測および手続き計画において,最先端(SoTA)の性能を達成可能であることを示す。
観察されたステップから凍結したクリップレベルの埋め込みを条件付けて、目に見えないステップの動作を予測することで、予測のための堅牢な表現を学習することができる。
論文 参考訳(メタデータ) (2024-10-04T14:52:09Z) - ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition [5.253376886484742]
本稿では,カメラトラップ映像から直接抽出した視覚特徴のマルチモーダルデコードを利用する視覚言語モデルを提案する。
我々はPanAf500とPanAf20Kのデータセットを用いてシステムを評価する。
トップ1の精度で視覚モデルと視覚言語モデルに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-13T09:17:51Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Explored An Effective Methodology for Fine-Grained Snake Recognition [8.908667065576632]
我々は,様々なメタ情報を活用し,きめ細かい識別を支援するために,強力なマルチモーダルバックボーンを設計する。
ラベルのないデータセットを最大限に活用するために,自己教師付き学習と教師付き学習共同学習を用いる。
本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。
論文 参考訳(メタデータ) (2022-07-24T02:19:15Z) - Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based
Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。
我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。
時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文 参考訳(メタデータ) (2022-07-17T07:05:39Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Dynamic Curriculum Learning for Great Ape Detection in the Wild [14.212559301656]
本研究では,現実世界のジャングル環境における検出器構築を改善するために,エンドツーエンドのカリキュラム学習手法を提案する。
従来の半教師付き手法とは対照的に,本手法は自己強化に向けての訓練を行うことで,検出品質を徐々に向上させる。
このような厳密な力学と制御は、学習の崩壊を回避し、検出器の調整をより高度なモデル品質に徐々に結びつけることができることを示す。
論文 参考訳(メタデータ) (2022-04-30T14:02:52Z) - UNIK: A Unified Framework for Real-world Skeleton-based Action
Recognition [11.81043814295441]
UNIKは、データセットをまたいで一般化できる新しい骨格に基づく行動認識手法である。
実世界のビデオにおける行動認識のクロスドメイン一般化可能性について検討するため,提案したUNIKと同様に最先端のアプローチを再評価する。
その結果,提案したUNIKは,Poseticsを事前学習した上で,4つのターゲットアクション分類データセットに転送した場合に,最先端の処理性能を向上することがわかった。
論文 参考訳(メタデータ) (2021-07-19T02:00:28Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。