論文の概要: Benchmarking Monocular 3D Dog Pose Estimation Using In-The-Wild Motion Capture Data
- arxiv url: http://arxiv.org/abs/2406.14412v1
- Date: Thu, 20 Jun 2024 15:33:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 13:03:05.449507
- Title: Benchmarking Monocular 3D Dog Pose Estimation Using In-The-Wild Motion Capture Data
- Title(参考訳): In-The-Wild Motion Capture Dataを用いた単眼3次元犬の姿勢推定のベンチマーク
- Authors: Moira Shooter, Charles Malleson, Adrian Hilton,
- Abstract要約: 単眼画像からの3次元犬のポーズ推定に焦点をあてた新しいベンチマーク分析を提案する。
マルチモーダルなデータセット3DDogs-Labは屋内で撮影され、様々な犬種が通路で群がっている。
3DDogs-Wildは、光学マーカーをインペイントし、被験者を多様な環境に配置するデータセットの帰化バージョンです。
また, 3DDogs-Wild を用いたモデルトレーニングにより, フィールド内データの評価において, 性能が向上することを示した。
- 参考スコア(独自算出の注目度): 17.042955091063444
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a new benchmark analysis focusing on 3D canine pose estimation from monocular in-the-wild images. A multi-modal dataset 3DDogs-Lab was captured indoors, featuring various dog breeds trotting on a walkway. It includes data from optical marker-based mocap systems, RGBD cameras, IMUs, and a pressure mat. While providing high-quality motion data, the presence of optical markers and limited background diversity make the captured video less representative of real-world conditions. To address this, we created 3DDogs-Wild, a naturalised version of the dataset where the optical markers are in-painted and the subjects are placed in diverse environments, enhancing its utility for training RGB image-based pose detectors. We show that using the 3DDogs-Wild to train the models leads to improved performance when evaluating on in-the-wild data. Additionally, we provide a thorough analysis using various pose estimation models, revealing their respective strengths and weaknesses. We believe that our findings, coupled with the datasets provided, offer valuable insights for advancing 3D animal pose estimation.
- Abstract(参考訳): 単眼画像からの3次元犬のポーズ推定に焦点をあてた新しいベンチマーク分析を提案する。
マルチモーダルなデータセット3DDogs-Labは屋内で撮影され、様々な犬種が通路で群がっている。
光学マーカーベースのモキャップシステム、RGBDカメラ、IMU、圧力マットからのデータが含まれている。
高品質なモーションデータを提供する一方で、光学マーカーの存在と背景の多様性の制限により、キャプチャされたビデオは現実の状態をあまり表さない。
そこで我々は、3DDogs-Wildという3Dogs-Wildを作成した。このデータセットは、光学マーカーをインペイントし、被験者を多様な環境に配置し、RGB画像ベースのポーズ検出装置を訓練するための有用性を向上する。
また, 3DDogs-Wild を用いたモデルトレーニングにより, フィールド内データの評価において, 性能が向上することを示した。
さらに、様々なポーズ推定モデルを用いて、それぞれの長所と短所を明らかにする。
得られたデータセットと組み合わせることで、3D動物のポーズ推定を推し進めるための貴重な洞察が得られると我々は信じている。
関連論文リスト
- L3D-Pose: Lifting Pose for 3D Avatars from a Single Camera in the Wild [15.174438063000453]
3Dポーズ推定は、奥行きを取り入れたより包括的なソリューションを提供するが、動物のための3Dポーズデータセットを作成することは、自然の環境での動的で予測不可能な振る舞いのために難しい。
本研究では,2次元から3次元へのポーズを持ち上げるために,体系的に合成されたデータセットを用いたフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-02T10:04:12Z) - Generative Zoo [41.65977386204797]
各種の哺乳類の四足動物に対して多様なポーズと形状の集合をサンプリングするパイプラインを導入し,それに対応する接地トルースポーズと形状パラメータを用いたリアルな画像を生成する。
我々はGenZoo上で3Dポーズと形状回帰器を訓練し、実際の動物のポーズと形状推定ベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-11T04:57:53Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Rope3D: TheRoadside Perception Dataset for Autonomous Driving and
Monocular 3D Object Detection Task [48.555440807415664]
道路沿いの知覚3Dデータセットに挑戦する最初のハイダイバーシティを提示する。
データセットは50Kイメージと、さまざまなシーンで1.5M以上の3Dオブジェクトで構成されている。
本稿では,様々なセンサや視点によって引き起こされるあいまいさを解決するために,幾何学的制約を活用することを提案する。
論文 参考訳(メタデータ) (2022-03-25T12:13:23Z) - MetaPose: Fast 3D Pose from Multiple Views without 3D Supervision [72.5863451123577]
正確な3Dポーズとカメラ推定が可能なニューラルモデルをトレーニングする方法を示す。
本手法は,古典的バンドル調整と弱教師付き単分子3Dベースラインの両方に優れる。
論文 参考訳(メタデータ) (2021-08-10T18:39:56Z) - Heuristic Weakly Supervised 3D Human Pose Estimation [13.82540778667711]
弱教師付き3D人間のポーズ(HW-HuP)ソリューションは、3Dのポーズデータが入手できない場合に3Dのポーズを推定する。
HW-HuPは,ヒトのベッドでのポーズと野生での幼児のポーズという,3次元のポーズデータが得られにくい2つの実践的な環境で,最先端のモデルにおいて有意義に改善されていることを示す。
論文 参考訳(メタデータ) (2021-05-23T18:40:29Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - RGBD-Dog: Predicting Canine Pose from RGBD Sensors [25.747221533627464]
RGBD画像から3次元犬のポーズ推定の問題に焦点をあてる。
このデータから合成RGBD画像のデータセットを生成する。
積み重ねられた砂時計ネットワークは、3D関節の場所を予測するために訓練される。
論文 参考訳(メタデータ) (2020-04-16T17:34:45Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。