論文の概要: SimpleEgo: Predicting Probabilistic Body Pose from Egocentric Cameras
- arxiv url: http://arxiv.org/abs/2401.14785v1
- Date: Fri, 26 Jan 2024 11:19:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 15:28:55.050875
- Title: SimpleEgo: Predicting Probabilistic Body Pose from Egocentric Cameras
- Title(参考訳): SimpleEgo:エゴセントリックカメラから確率的ボディポッドを予測する
- Authors: Hanz Cuevas-Velasquez, Charlie Hewitt, Sadegh Aliakbarian, Tadas
Baltru\v{s}aitis
- Abstract要約: ヘッドマウントデバイス(HMD)上の下向きカメラでは、人間中心のポーズ推定が困難である
これまでのソリューションでは、魚眼カメラのレンズを使ってより広い視野を捉えることで、この問題を最小限に抑えることができた。
従来のリチリニアカメラレンズで撮影した画像からポーズを予測する。これはハードウェア設計の問題を解決するが、ボディ部品はフレーム外になることが多い。
提案手法は, この難易度設定の最先端化を実現し, 平均接合位置誤差を23%減らし, 下半身では58%減らした。
- 参考スコア(独自算出の注目度): 6.476948781728137
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our work addresses the problem of egocentric human pose estimation from
downwards-facing cameras on head-mounted devices (HMD). This presents a
challenging scenario, as parts of the body often fall outside of the image or
are occluded. Previous solutions minimize this problem by using fish-eye camera
lenses to capture a wider view, but these can present hardware design issues.
They also predict 2D heat-maps per joint and lift them to 3D space to deal with
self-occlusions, but this requires large network architectures which are
impractical to deploy on resource-constrained HMDs. We predict pose from images
captured with conventional rectilinear camera lenses. This resolves hardware
design issues, but means body parts are often out of frame. As such, we
directly regress probabilistic joint rotations represented as matrix Fisher
distributions for a parameterized body model. This allows us to quantify pose
uncertainties and explain out-of-frame or occluded joints. This also removes
the need to compute 2D heat-maps and allows for simplified DNN architectures
which require less compute. Given the lack of egocentric datasets using
rectilinear camera lenses, we introduce the SynthEgo dataset, a synthetic
dataset with 60K stereo images containing high diversity of pose, shape,
clothing and skin tone. Our approach achieves state-of-the-art results for this
challenging configuration, reducing mean per-joint position error by 23%
overall and 58% for the lower body. Our architecture also has eight times fewer
parameters and runs twice as fast as the current state-of-the-art. Experiments
show that training on our synthetic dataset leads to good generalization to
real world images without fine-tuning.
- Abstract(参考訳): 本研究は、ヘッドマウントデバイス(HMD)上の下向きカメラによる人間中心のポーズ推定の問題に対処する。
これは難しいシナリオであり、身体の一部がしばしば画像の外側に落ちるか、隠されているためである。
これまでのソリューションでは、魚眼カメラレンズを使って広い視野を捉えることで、この問題を最小限に抑えることができた。
彼らはまた、関節あたりの2次元熱マップを予測し、自己閉塞を扱うために3次元空間まで持ち上げるが、これはリソース制約されたHMDにデプロイするには実用的でない大規模なネットワークアーキテクチャを必要とする。
従来の直線型カメラレンズで撮影した画像からポーズを推定する。
これはハードウェア設計の問題を解決するが、ボディ部品はフレーム外であることが多い。
そこで,パラメータ化体モデルに対する行列フィッシャー分布として表される確率的関節回転を直接回帰する。
これにより、不確実性を定量化し、フレーム外または閉塞された関節を説明することができます。
これにより、2dヒートマップを計算する必要がなくなり、計算の少ないdnnアーキテクチャが簡単になる。
直線型カメラレンズを用いたエゴセントリックデータセットの欠如を考えると、synthegoデータセットはポーズ、形状、衣服、肌の色が多様である60kステレオ画像からなる合成データセットである。
提案手法は, この難易度設定の最先端化を実現し, 平均接合位置誤差を23%, 下肢では58%削減する。
私たちのアーキテクチャはパラメータも8倍少なく、現在の最先端の2倍の速度で動作します。
実験によると、われわれの合成データセットのトレーニングは、微調整せずに現実世界の画像に優れた一般化をもたらす。
関連論文リスト
- Multi-HMR: Multi-Person Whole-Body Human Mesh Recovery in a Single Shot [22.848563931757962]
単一のRGB画像から多人数で3Dメッシュを回収するための強力なシグルショットモデルであるMulti-HMRを提案する。
SMPL-Xパラメトリックモデルを用いて、手や表情を含む全身を予測する。
トレーニングデータに組み込むことで,特に手に対する予測がさらに向上することを示す。
論文 参考訳(メタデータ) (2024-02-22T16:05:13Z) - Ego3DPose: Capturing 3D Cues from Binocular Egocentric Views [9.476008200056082]
Ego3DPoseは、高度に高精度な両眼エゴ中心型3Dポーズ再構築システムである。
両眼熱マップと独立に手足のポーズを推定する経路を持つ2経路ネットワークアーキテクチャを提案する。
三角法を用いた新しい視点認識表現を提案し,手足の3次元方向を推定する。
論文 参考訳(メタデータ) (2023-09-21T10:34:35Z) - Metric3D: Towards Zero-shot Metric 3D Prediction from A Single Image [85.91935485902708]
ゼロショット単視距離深度モデルの鍵は、大規模データトレーニングと様々なカメラモデルからの距離あいまいさの解消の組合せにあることを示す。
本稿では,あいまいさ問題に明示的に対処し,既存の単分子モデルにシームレスに接続可能な標準カメラ空間変換モジュールを提案する。
本手法は, ランダムに収集したインターネット画像上での計測3次元構造の正確な復元を可能にする。
論文 参考訳(メタデータ) (2023-07-20T16:14:23Z) - Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh
Reconstruction [66.10717041384625]
Zollyは、視点歪みの画像に焦点を当てた最初の3DHMR法である。
人体の2次元密度ゆらぎスケールを記述した新しいカメラモデルと新しい2次元歪み画像を提案する。
このタスク用に調整された2つの現実世界のデータセットを拡張します。
論文 参考訳(メタデータ) (2023-03-24T04:22:41Z) - Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。
我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。
我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2022-07-26T15:48:46Z) - Building Spatio-temporal Transformers for Egocentric 3D Pose Estimation [9.569752078386006]
過去のフレームからの情報を活用して、自己注意に基づく3D推定手順であるEgo-STANをガイドします。
具体的には、セマンティックにリッチな畳み込みニューラルネットワークに基づく特徴マップに付随する時間変換モデルを構築する。
我々は,xR-EgoPoseデータセットにおいて,Ego-STANの優れた性能を示す。
論文 参考訳(メタデータ) (2022-06-09T22:33:27Z) - SPEC: Seeing People in the Wild with an Estimated Camera [64.85791231401684]
1枚の画像から視点カメラを推定する最初の3DHPS方式であるSPECを紹介する。
我々は、視野、カメラピッチ、入力画像のロールを推定するためにニューラルネットワークを訓練する。
次に、カメラキャリブレーションを画像の特徴に合わせてロールする新しいネットワークをトレーニングし、これらを組み合わせて3Dのボディ形状とポーズを復元する。
論文 参考訳(メタデータ) (2021-10-01T19:05:18Z) - SelfPose: 3D Egocentric Pose Estimation from a Headset Mounted Camera [97.0162841635425]
頭部装着型VR装置の縁に設置した下向きの魚眼カメラから撮影した単眼画像から,エゴセントリックな3Dボディポーズ推定法を提案する。
この特異な視点は、厳密な自己閉塞と視点歪みを伴う、独特の視覚的な外観のイメージに繋がる。
本稿では,2次元予測の不確実性を考慮した新しいマルチブランチデコーダを用いたエンコーダデコーダアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:18:06Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。