論文の概要: The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition
- arxiv url: http://arxiv.org/abs/2502.21201v3
- Date: Wed, 19 Mar 2025 15:11:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:21:02.701369
- Title: The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition
- Title(参考訳): PanAf-FGBGデータセット:野生生物の行動認識における背景の影響を理解する
- Authors: Otto Brookes, Maksim Kukushkin, Majid Mirmehdi, Colleen Stephens, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Maureen S. McCarthy, Amelia Meier, Emmanuelle Normand, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Klaus Zuberbühler, Lukas Boesch, Thomas Schmid, Mimi Arandjelovic, Hjalmar Kühl, Tilo Burghardt,
- Abstract要約: 350以上のカメラで記録された20時間の野生チンパンジーの挙動を特徴とするPanAf-FGBGデータセットを提示する。
ユニークなのは、すべてのビデオとチンパンジー(前景ビデオ)を、同じカメラの場所から対応するバックグラウンドビデオ(チンパンジーなし)とをペアリングすることです。
この設定により、初めて、分布内および分布外条件を直接評価し、振る舞い認識モデルに対する背景の影響を定量化することができる。
- 参考スコア(独自算出の注目度): 9.865022241248116
- License:
- Abstract: Computer vision analysis of camera trap video footage is essential for wildlife conservation, as captured behaviours offer some of the earliest indicators of changes in population health. Recently, several high-impact animal behaviour datasets and methods have been introduced to encourage their use; however, the role of behaviour-correlated background information and its significant effect on out-of-distribution generalisation remain unexplored. In response, we present the PanAf-FGBG dataset, featuring 20 hours of wild chimpanzee behaviours, recorded at over 350 individual camera locations. Uniquely, it pairs every video with a chimpanzee (referred to as a foreground video) with a corresponding background video (with no chimpanzee) from the same camera location. We present two views of the dataset: one with overlapping camera locations and one with disjoint locations. This setup enables, for the first time, direct evaluation of in-distribution and out-of-distribution conditions, and for the impact of backgrounds on behaviour recognition models to be quantified. All clips come with rich behavioural annotations and metadata including unique camera IDs and detailed textual scene descriptions. Additionally, we establish several baselines and present a highly effective latent-space normalisation technique that boosts out-of-distribution performance by +5.42% mAP for convolutional and +3.75% mAP for transformer-based models. Finally, we provide an in-depth analysis on the role of backgrounds in out-of-distribution behaviour recognition, including the so far unexplored impact of background durations (i.e., the count of background frames within foreground videos).
- Abstract(参考訳): カメラトラップ映像のコンピュータビジョン分析は野生生物の保護に不可欠である。
近年、動物行動データセットや手法がいくつか導入され、その利用が促進されているが、行動関連背景情報の役割と、分布外一般化に対するその重要な影響は未解明のままである。
反応として、PanAf-FGBGデータセットが提示され、20時間のチンパンジーの行動が350以上のカメラで記録された。
ユニークなのは、すべてのビデオとチンパンジー(前景ビデオ)を、同じカメラの場所から対応するバックグラウンドビデオ(チンパンジーなし)とをペアリングすることです。
1つはカメラ位置が重なり、もう1つは不連続な位置である。
この設定により、初めて、分布内および分布外条件を直接評価し、振る舞い認識モデルに対する背景の影響を定量化することができる。
すべてのクリップには、ユニークなカメラIDや詳細なテキストシーン記述を含む、リッチな振る舞いアノテーションとメタデータが付属している。
さらに, コンボリューションモデルでは+5.42% mAP, トランスフォーマーモデルでは+3.75% mAPのアウトオブディストリビューション性能を向上する高効率な潜在空間正規化手法を提案する。
最後に,これまでの背景期間(例えば,前景映像内の背景フレーム数)の未探索な影響を含む,分布外行動認識における背景の役割について,詳細な分析を行った。
関連論文リスト
- SRPose: Two-view Relative Pose Estimation with Sparse Keypoints [51.49105161103385]
SRPoseは、カメラ・トゥ・ワールドおよびオブジェクト・トゥ・カメラシナリオにおける2ビュー相対ポーズ推定のためのスパースキーポイントベースのフレームワークである。
精度と速度の点で最先端の手法と比較して、競争力や優れた性能を達成する。
さまざまな画像サイズやカメラ固有の機能に対して堅牢であり、低コンピューティングリソースでデプロイすることができる。
論文 参考訳(メタデータ) (2024-07-11T05:46:35Z) - From Forest to Zoo: Great Ape Behavior Recognition with ChimpBehave [0.0]
ChimpBehaveは動物園で飼育されているチンパンジーの2時間以上のビデオ(約193,000フレーム)を特徴とする新しいデータセットだ。
ChimpBehaveは、アクション認識のためのバウンディングボックスやビヘイビアラベルに細心の注意を払ってアノテートする。
我々は、最先端のCNNベースの行動認識モデルを用いてデータセットをベンチマークする。
論文 参考訳(メタデータ) (2024-05-30T13:11:08Z) - BaboonLand Dataset: Tracking Primates in the Wild and Automating Behaviour Recognition from Drone Videos [0.8074955699721389]
本研究では,バブーン検出,追跡,行動認識のための,ドローンビデオからの新たなデータセットを提案する。
Baboon検出データセットは、ドローンビデオにすべてのbaboonをバウンディングボックスで手動でアノテートすることで作成されている。
行動認識データセットは、各動物を中心としたビデオサブリージョンであるミニシーンにトラックを変換することで生成される。
論文 参考訳(メタデータ) (2024-05-27T23:09:37Z) - Multimodal Foundation Models for Zero-shot Animal Species Recognition in
Camera Trap Images [57.96659470133514]
モーションアクティベートカメラトラップは、世界中の野生生物を追跡・監視するための効率的なツールである。
教師付き学習技術は、そのような画像を分析するためにうまく展開されているが、そのような訓練には専門家のアノテーションが必要である。
コストのかかるラベル付きデータへの依存を減らすことは、人間の労働力を大幅に減らした大規模野生生物追跡ソリューションを開発する上で、大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-02T08:32:00Z) - Meerkat Behaviour Recognition Dataset [3.53348643468069]
本稿では,多彩なアノテーション付き行動認識ビデオデータセットについて紹介する。
このデータセットにはウェリントン動物園(ニュージーランドのウェリントン)のメアカットの囲いの2箇所のビデオが含まれている。
論文 参考訳(メタデータ) (2023-06-20T06:50:50Z) - Automatic Individual Identification of Patterned Solitary Species Based
on Unlabeled Video Data [7.667274758235099]
手動操作を必要とせずに、カメラトラップからビデオを分析し、個人を特定するパイプラインを開発した。
このパイプラインは、ヒョウ(Panthera pardus)のような一意に識別可能な毛皮パターンと孤独な行動を持つ動物種に適用される。
パイプラインはPan African Programme: The Cultured Chimpanzee (PanAf)によって収集されたヒョウのビデオのデータセットでテストされた。
論文 参考訳(メタデータ) (2023-04-19T13:46:16Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.87449881852062]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。
このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。
我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文 参考訳(メタデータ) (2022-06-12T07:18:36Z) - Animal Kingdom: A Large and Diverse Dataset for Animal Behavior
Understanding [4.606145900630665]
大規模で多様なデータセットであるAnimal Kingdomを作成し、複数の注釈付きタスクを提供します。
私たちのデータセットには、関連する動物行動セグメントをローカライズする50時間のアノテーション付きビデオが含まれています。
本研究では,未確認新種動物を用いた行動認識の一般的な特徴と特定の特徴を学習する協調行動認識(CARe)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T02:05:15Z) - Towards Accurate Human Pose Estimation in Videos of Crowded Scenes [134.60638597115872]
我々は、時間的文脈を利用して新しいデータを収集する視点から、混雑したシーンのビデオにおける人間のポーズ推定を改善することに注力する。
あるフレームについては、過去のフレームから過去のポーズを転送し、その後のフレームから現在のフレームへ未来的なポーズを後退させ、ビデオにおける安定した人間のポーズ推定に繋がる。
このようにして、HIEチャレンジのテストデータセット上で、13本中7本、56.33本の平均w_APで最高の性能を達成する。
論文 参考訳(メタデータ) (2020-10-16T13:19:11Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。