論文の概要: APTv2: Benchmarking Animal Pose Estimation and Tracking with a
Large-scale Dataset and Beyond
- arxiv url: http://arxiv.org/abs/2312.15612v1
- Date: Mon, 25 Dec 2023 04:49:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 17:15:07.463701
- Title: APTv2: Benchmarking Animal Pose Estimation and Tracking with a
Large-scale Dataset and Beyond
- Title(参考訳): APTv2:大規模データセットを用いた動物行動推定と追跡のベンチマーク
- Authors: Yuxiang Yang, Yingqi Deng, Yufei Xu, Jing Zhang
- Abstract要約: APTv2は動物のポーズ推定と追跡のための大規模ベンチマークのパイオニアである。
ビデオクリップは2,749本で、30種の動物から抽出・収集されている。
我々は,84,611種の動物インスタンスに対して高品質なキーポイントと追跡アノテーションを提供する。
- 参考スコア(独自算出の注目度): 27.50166679588048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Animal Pose Estimation and Tracking (APT) is a critical task in detecting and
monitoring the keypoints of animals across a series of video frames, which is
essential for understanding animal behavior. Past works relating to animals
have primarily focused on either animal tracking or single-frame animal pose
estimation only, neglecting the integration of both aspects. The absence of
comprehensive APT datasets inhibits the progression and evaluation of animal
pose estimation and tracking methods based on videos, thereby constraining
their real-world applications. To fill this gap, we introduce APTv2, the
pioneering large-scale benchmark for animal pose estimation and tracking. APTv2
comprises 2,749 video clips filtered and collected from 30 distinct animal
species. Each video clip includes 15 frames, culminating in a total of 41,235
frames. Following meticulous manual annotation and stringent verification, we
provide high-quality keypoint and tracking annotations for a total of 84,611
animal instances, split into easy and hard subsets based on the number of
instances that exists in the frame. With APTv2 as the foundation, we establish
a simple baseline method named \posetrackmethodname and provide benchmarks for
representative models across three tracks: (1) single-frame animal pose
estimation track to evaluate both intra- and inter-domain transfer learning
performance, (2) low-data transfer and generalization track to evaluate the
inter-species domain generalization performance, and (3) animal pose tracking
track. Our experimental results deliver key empirical insights, demonstrating
that APTv2 serves as a valuable benchmark for animal pose estimation and
tracking. It also presents new challenges and opportunities for future
research. The code and dataset are released at
\href{https://github.com/ViTAE-Transformer/APTv2}{https://github.com/ViTAE-Transformer/APTv2}.
- Abstract(参考訳): 動物行動推定・追跡(英: Animal Pose Estimation and Tracking、APT)は、動物の行動を理解するために不可欠である一連のビデオフレームを通して動物のキーポイントを検出し、監視するための重要なタスクである。
動物に関する過去の研究は、主に動物追跡か単一フレーム動物のポーズ推定のみに焦点を当てており、両方の側面の統合を無視している。
包括的APTデータセットの欠如は、ビデオに基づく動物のポーズ推定と追跡手法の進歩と評価を阻害し、現実世界の応用を制約する。
このギャップを埋めるために,動物ポーズ推定と追跡のための大規模ベンチマークであるAPTv2を導入する。
aptv2は2,749本のビデオクリップをフィルターして30種の動物から収集する。
各ビデオクリップは15フレームで構成され、合計で41,235フレームとなる。
精巧な手動アノテーションと厳密な検証に従って,84,611の動物インスタンスに対して,高品質のキーポイントとトラッキングアノテーションを提供し,フレームに存在するインスタンス数に基づいて,容易かつハードなサブセットに分割する。
aptv2 を基盤として, \posetrackmethodname という簡易なベースライン手法を確立し,1) 個体間移動学習性能を評価するための単一フレーム動物ポーズ推定トラック,(2) 種間ドメイン一般化性能を評価するための低データ転送と一般化トラック,(3) 動物のポーズ追跡トラックの3つのトラックにまたがる代表モデルのベンチマークを提供する。
実験の結果から,APTv2が動物のポーズ推定・追跡の指標として有用であることが確認された。
また、将来の研究のための新たな課題や機会も提示する。
コードとデータセットは \href{https://github.com/ViTAE-Transformer/APTv2}{https://github.com/ViTAE-Transformer/APTv2} でリリースされる。
関連論文リスト
- AnimalFormer: Multimodal Vision Framework for Behavior-based Precision Livestock Farming [0.0]
精密畜産のためのマルチモーダルビジョン・フレームワークを提案する。
我々は、GroundingDINO、HQSAM、ViTPoseモデルのパワーを利用する。
このスイートは、侵入的な動物タグ付けをすることなく、ビデオデータから包括的な行動分析を可能にする。
論文 参考訳(メタデータ) (2024-06-14T04:42:44Z) - 3D-MuPPET: 3D Multi-Pigeon Pose Estimation and Tracking [14.52333427647304]
複数のカメラビューを用いて対話的な速度で最大10羽のハトの3Dポーズを推定・追跡するフレームワークである3D-MuPPETを提案する。
まず第1フレームのグローバルIDに2D検出を動的にマッチングし、次に2Dトラッカーを使用して、その後のフレームにおけるビュー間のIDを維持する。
また、3D-MuPPETは自然環境からのアノテーションを伴わずに屋外でも機能することを示した。
論文 参考訳(メタデータ) (2023-08-29T14:02:27Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - TAP-Vid: A Benchmark for Tracking Any Point in a Video [84.94877216665793]
我々は、より長いビデオクリップで表面上の任意の物理点を追跡するという問題を定式化し、任意の点(TAP)を追尾する。
そこで本研究では,実世界の映像に正確な点線アノテーションを付加したTAP-Vidと,完全な接地木線トラックを付加した合成ビデオとを併用したベンチマーク,TAP-Vidを提案する。
本稿では, 簡易な終端点追跡モデルTAP-Netを提案する。
論文 参考訳(メタデータ) (2022-11-07T17:57:02Z) - APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking [77.87449881852062]
APT-36Kは動物のポーズ推定と追跡のための最初の大規模ベンチマークである。
このビデオは、30種の動物から収集・フィルタリングされた2,400のビデオクリップと、各ビデオの15フレームで構成されており、合計で36,000フレームとなっている。
我々は,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定の3つのモデルについて,いくつかの代表的モデルをベンチマークした。
論文 参考訳(メタデータ) (2022-06-12T07:18:36Z) - AnimalTrack: A Large-scale Benchmark for Multi-Animal Tracking in the
Wild [26.794672185860538]
野生でのマルチ動物追跡のための大規模ベンチマークであるAnimalTrackを紹介した。
AnimalTrackは10種類の一般的な動物カテゴリーから58の配列で構成されている。
我々は14の最先端の代表トラッカーを広範囲に評価した。
論文 参考訳(メタデータ) (2022-04-30T04:23:59Z) - Animal Kingdom: A Large and Diverse Dataset for Animal Behavior
Understanding [4.606145900630665]
大規模で多様なデータセットであるAnimal Kingdomを作成し、複数の注釈付きタスクを提供します。
私たちのデータセットには、関連する動物行動セグメントをローカライズする50時間のアノテーション付きビデオが含まれています。
本研究では,未確認新種動物を用いた行動認識の一般的な特徴と特定の特徴を学習する協調行動認識(CARe)モデルを提案する。
論文 参考訳(メタデータ) (2022-04-18T02:05:15Z) - AP-10K: A Benchmark for Animal Pose Estimation in the Wild [83.17759850662826]
一般的な動物のポーズ推定のための,最初の大規模ベンチマークであるAP-10Kを提案する。
AP-10Kは動物23種と60種から収集・濾過された10,015枚からなる。
その結果、様々な動物種からの学習の精度と一般化能力の両面での優位性に関する実験的な証拠が得られた。
論文 参考訳(メタデータ) (2021-08-28T10:23:34Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。