論文の概要: CLHOP: Combined Audio-Video Learning for Horse 3D Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2407.01244v1
- Date: Mon, 1 Jul 2024 12:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 21:39:54.713819
- Title: CLHOP: Combined Audio-Video Learning for Horse 3D Pose and Shape Estimation
- Title(参考訳): CLHOP:馬の3D画像と形状推定のためのオーディオビデオ学習
- Authors: Ci Li, Elin Hernlund, Hedvig Kjellström, Silvia Zuffi,
- Abstract要約: 単眼ビデオから馬の3次元形状と運動回復性を高めるために,音声を用いた検討を行った。
本研究は,3次元動物の運動回復における音声の役割を初めて研究したものである。
- 参考スコア(独自算出の注目度): 8.722147241142736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the monocular setting, predicting 3D pose and shape of animals typically relies solely on visual information, which is highly under-constrained. In this work, we explore using audio to enhance 3D shape and motion recovery of horses from monocular video. We test our approach on two datasets: an indoor treadmill dataset for 3D evaluation and an outdoor dataset capturing diverse horse movements, the latter being a contribution to this study. Our results show that incorporating sound with visual data leads to more accurate and robust motion regression. This study is the first to investigate audio's role in 3D animal motion recovery.
- Abstract(参考訳): 単眼では、動物の3Dポーズと形状を予測することは視覚情報にのみ依存する。
本研究は, 単眼映像から3次元形状と運動回復性を高めるために, 音声を用いた検討である。
本研究では,室内トレッドミルの3次元評価用データセットと,多種多様な馬の動きを抽出した屋外データセットの2つのデータセットについて検討した。
その結果,音を視覚データに組み込むことにより,より正確でロバストな動きの回帰が導かれることがわかった。
本研究は,3次元動物の運動回復における音声の役割を初めて研究したものである。
関連論文リスト
- SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。
我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。
我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文 参考訳(メタデータ) (2023-12-21T18:59:30Z) - Animal3D: A Comprehensive Dataset of 3D Animal Pose and Shape [32.11280929126699]
哺乳類の3Dポーズと形状推定のための包括的データセットであるAnimal3Dを提案する。
動物3Dは、40種の哺乳類から収集された3379枚の画像、26個のキーポイントの高品質なアノテーション、特にSMALモデルのポーズと形状パラメータで構成されている。
The Animal3D data based on the Animal3D dataset, we benchmark representative shape and pose Estimation model at (1) 教師付き学習, (2) 合成画像から実写への変換, 3) 微調整された人間のポーズと形状推定モデル。
論文 参考訳(メタデータ) (2023-08-22T18:57:07Z) - Predictive Modeling of Equine Activity Budgets Using a 3D Skeleton
Reconstructed from Surveillance Recordings [0.8602553195689513]
4つの同時監視カメラ記録から馬の3Dポーズを再構築するパイプラインを提案する。
私たちの環境は、カメラの視野の制限や、比較的閉じて小さな環境など、取り組まなければならない興味深い課題を生んでいる。
論文 参考訳(メタデータ) (2023-06-08T16:00:04Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - AcinoSet: A 3D Pose Estimation Dataset and Baseline Models for Cheetahs
in the Wild [51.35013619649463]
我々はAcinoSetと呼ばれる野生のフリーランニングチーターの広範なデータセットを提示する。
データセットには、119,490フレームのマルチビュー同期高速ビデオ映像、カメラキャリブレーションファイル、7,588フレームが含まれている。
また、結果の3D軌道、人間チェックされた3D地上真実、およびデータを検査するインタラクティブツールも提供される。
論文 参考訳(メタデータ) (2021-03-24T15:54:11Z) - ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic
Data [2.3661942553209236]
2Dと3Dのポーズ推定モデルを合成データでトレーニングし、ZooBuilderと呼ばれるエンドツーエンドのパイプラインを配置します。
パイプラインは野生動物のビデオとして入力され、動物の骨格の各関節の対応する2Dと3D座標を生成する。
論文 参考訳(メタデータ) (2020-09-01T07:41:20Z) - Kinematic 3D Object Detection in Monocular Video [123.7119180923524]
運動運動を注意深く利用して3次元位置決めの精度を向上させるモノクロ映像を用いた3次元物体検出法を提案する。
我々は、KITTI自動運転データセット内のモノクロ3次元物体検出とバードアイビュータスクの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-07-19T01:15:12Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。