論文の概要: BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations
- arxiv url: http://arxiv.org/abs/2602.19874v1
- Date: Mon, 23 Feb 2026 14:21:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.845297
- Title: BigMaQ: A Big Macaque Motion and Animation Dataset Bridging Image and 3D Pose Representations
- Title(参考訳): BigMaQ:大きなマカクティックな動きとアニメーションデータセットのブリッジ画像と3Dポス表現
- Authors: Lucas Martini, Alexander Lappe, Anna Bognár, Rufin Vogels, Martin A. Giese,
- Abstract要約: 動物における動的・社会的行動の認識は、民族学、生態学、医学、神経科学の進歩に不可欠である。
近年のディープラーニングの進歩により、ビデオからの自動行動認識が可能になったが、3次元のポーズと形状を正確に再現することは、このプロセスには組み込まれていない。
$texttBigMaQ$は、動的な3Dポーズの表現を動物行動認識の学習タスクに統合する最初のデータセットを確立する。
- 参考スコア(独自算出の注目度): 38.868479054644354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recognition of dynamic and social behavior in animals is fundamental for advancing ethology, ecology, medicine and neuroscience. Recent progress in deep learning has enabled automated behavior recognition from video, yet an accurate reconstruction of the three-dimensional (3D) pose and shape has not been integrated into this process. Especially for non-human primates, mesh-based tracking efforts lag behind those for other species, leaving pose descriptions restricted to sparse keypoints that are unable to fully capture the richness of action dynamics. To address this gap, we introduce the $\textbf{Big Ma}$ca$\textbf{Q}$ue 3D Motion and Animation Dataset ($\texttt{BigMaQ}$), a large-scale dataset comprising more than 750 scenes of interacting rhesus macaques with detailed 3D pose descriptions. Extending previous surface-based animal tracking methods, we construct subject-specific textured avatars by adapting a high-quality macaque template mesh to individual monkeys. This allows us to provide pose descriptions that are more accurate than previous state-of-the-art surface-based animal tracking methods. From the original dataset, we derive BigMaQ500, an action recognition benchmark that links surface-based pose vectors to single frames across multiple individual monkeys. By pairing features extracted from established image and video encoders with and without our pose descriptors, we demonstrate substantial improvements in mean average precision (mAP) when pose information is included. With these contributions, $\texttt{BigMaQ}$ establishes the first dataset that both integrates dynamic 3D pose-shape representations into the learning task of animal action recognition and provides a rich resource to advance the study of visual appearance, posture, and social interaction in non-human primates. The code and data are publicly available at https://martinivis.github.io/BigMaQ/ .
- Abstract(参考訳): 動物における動的・社会的行動の認識は、民族学、生態学、医学、神経科学の進歩に不可欠である。
近年のディープラーニングの進歩により、ビデオからの自動行動認識が可能になったが、3次元のポーズと形状を正確に再現することは、このプロセスには組み込まれていない。
特にヒト以外の霊長類にとっては、メッシュベースの追跡努力は他の種よりも遅れており、アクションダイナミクスの豊かさを十分に捉えられない疎いキーポイントに制限されたポーズ記述を残している。
このギャップに対処するために、$\textbf{Big Ma}$ca$\textbf{Q}$ue 3D Motion and Animation Dataset ($\textt{BigMaQ}$)という大規模なデータセットを紹介します。
従来の動物追跡法を拡張し,高品質のマカクテンプレートメッシュをサルに適応させることにより,被験者固有のテクスチャアバターを構築した。
これにより、従来の最先端のサーフェスベースの動物追跡手法よりも正確なポーズ記述を提供することができる。
元のデータセットからBigMaQ500を導出します。これは、表面ベースのポーズベクトルを複数のサルにまたがる単一のフレームにリンクするアクション認識ベンチマークです。
確立された画像とビデオエンコーダから抽出した特徴をポーズ記述子なしでペアリングすることにより、ポーズ情報を含む場合の平均平均精度(mAP)を大幅に改善することを示す。
これらの貢献により、$\texttt{BigMaQ}$は、動物行動認識の学習タスクに動的3Dポーズ・シェープ表現を統合する最初のデータセットを確立し、非ヒト霊長類における視覚的外観、姿勢、社会的相互作用の研究を進めるための豊富なリソースを提供する。
コードとデータはhttps://martinivis.github.io/BigMaQ/ で公開されている。
関連論文リスト
- Generative Zoo [41.65977386204797]
各種の哺乳類の四足動物に対して多様なポーズと形状の集合をサンプリングするパイプラインを導入し,それに対応する接地トルースポーズと形状パラメータを用いたリアルな画像を生成する。
我々はGenZoo上で3Dポーズと形状回帰器を訓練し、実際の動物のポーズと形状推定ベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-11T04:57:53Z) - DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos [26.65191922949358]
モノクロビデオからアニマタブルな犬用アバターを構築する方法を提案する。
動物は様々な(予測不可能な)非剛体運動を示し、外観の詳細を持っているため、これは難しい。
我々は,動物のポーズの変化と外観を共同で解決する4Dソリューションを用いて,映像フレームをリンクする手法を開発した。
論文 参考訳(メタデータ) (2024-03-25T18:41:43Z) - Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - Co-Evolution of Pose and Mesh for 3D Human Body Estimation from Video [23.93644678238666]
ビデオから3次元の人間の動きを復元するPose and Mesh Co-Evolution Network (PMCE)を提案する。
提案したPMCEは、フレーム単位の精度と時間的一貫性の両方の観点から、従来の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-08-20T16:03:21Z) - BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown
Objects [89.2314092102403]
モノクロRGBDビデオシーケンスから未知物体の6-DoF追跡をリアルタイムに行う手法を提案する。
視覚的テクスチャがほとんど欠如している場合でも,任意の剛体オブジェクトに対して有効である。
論文 参考訳(メタデータ) (2023-03-24T17:13:49Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - Prior-Aware Synthetic Data to the Rescue: Animal Pose Estimation with
Very Limited Real Data [18.06492246414256]
そこで本研究では,対象動物からの実際の画像のみを必要とする四足歩行におけるポーズ推定のためのデータ効率のよい戦略を提案する。
ImageNetのような一般的な画像データセットに事前トレーニングされた重み付きバックボーンネットワークを微調整することで、ターゲット動物のポーズデータに対する高い需要を軽減できることが確認された。
そこで我々はPASynと呼ばれる先行認識型合成動物データ生成パイプラインを導入し,ロバストポーズ推定に不可欠な動物のポーズデータを増やした。
論文 参考訳(メタデータ) (2022-08-30T01:17:50Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal
Heatmaps [2.2079886535603084]
動作分類のための統一表現において、ポーズ情報と動き情報を符号化する深度認識記述子を提案する。
本手法の鍵となる要素は,人体の意味的キーポイントの3次元移動を符号化した新しいビデオ記述子,DA-PoTionである。
論文 参考訳(メタデータ) (2020-11-26T17:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。