論文の概要: Learning from Abstract Images: on the Importance of Occlusion in a
Minimalist Encoding of Human Poses
- arxiv url: http://arxiv.org/abs/2307.09893v1
- Date: Wed, 19 Jul 2023 10:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 14:28:04.445285
- Title: Learning from Abstract Images: on the Importance of Occlusion in a
Minimalist Encoding of Human Poses
- Title(参考訳): 抽象画像からの学習--ミニマリスト符号化における排除の重要性について
- Authors: Saad Manzur, Wayne Hayes
- Abstract要約: 2D-to-D表現は、クロスデータセットのベンチマークではパフォーマンスが悪い。
本稿では,それを符号化しながら3次元情報を用いた新しい表現を提案する。
その結果、カメラの視点から完全に独立したポーズを予測できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing 2D-to-3D pose lifting networks suffer from poor performance in
cross-dataset benchmarks. Although the use of 2D keypoints joined by
"stick-figure" limbs has shown promise as an intermediate step, stick-figures
do not account for occlusion information that is often inherent in an image. In
this paper, we propose a novel representation using opaque 3D limbs that
preserves occlusion information while implicitly encoding joint locations.
Crucially, when training on data with accurate three-dimensional keypoints and
without part-maps, this representation allows training on abstract synthetic
images, with occlusion, from as many synthetic viewpoints as desired. The
result is a pose defined by limb angles rather than joint positions
$\unicode{x2013}$ because poses are, in the real world, independent of cameras
$\unicode{x2013}$ allowing us to predict poses that are completely independent
of camera viewpoint. The result provides not only an improvement in
same-dataset benchmarks, but a "quantum leap" in cross-dataset benchmarks.
- Abstract(参考訳): 既存の2dから3dのポーズ昇降ネットワークは、データセット間のベンチマークで性能が低下する。
2dキーポイントを「スティックフィッティング」四肢で結合した使用は、promiseを中間段階として示したが、スティックフィギュアは、イメージに固有の閉塞情報を考慮しない。
本稿では,関節位置を暗黙的に符号化しながら,咬合情報を保存する不透明な3D手足を用いた新しい表現を提案する。
重要なことは、正確な3次元のキーポイントと部分マップのないデータでトレーニングを行う場合、この表現は、できるだけ多くの合成的な視点から、抽象的な合成画像の訓練を可能にする。
結果は、関節位置よりも手足角によって定義されるポーズである:$\unicode{x2013}$ なぜなら、ポーズは実世界では、カメラとは独立に$\unicode{x2013}$であるからである。
その結果、同じデータセットベンチマークで改善されるだけでなく、クロスデータセットベンチマークで"量子飛躍"となる。
関連論文リスト
- PostoMETRO: Pose Token Enhanced Mesh Transformer for Robust 3D Human Mesh Recovery [20.763457281944834]
本稿では,2次元ポーズ表現をトークン的に変換器に統合するPostoMETROを提案する。
閉塞のような極端なシナリオの下でも、より正確な3D座標を生成することができます。
論文 参考訳(メタデータ) (2024-03-19T06:18:25Z) - Occlusion Resilient 3D Human Pose Estimation [52.49366182230432]
排除は、シングルカメラビデオシーケンスからの3Dボディポーズ推定における重要な課題の1つとして残されている。
単一カメラシーケンスからポーズを推測する最先端技術と比較して,このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-16T19:29:43Z) - A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose
Estimation [18.72362803593654]
3Dポーズ列を3Dに上げる3Dポーズ推定における支配的なパラダイムは、長期的な時間的手がかりに大きく依存している。
これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。
そこで本研究では,市販の2次元ポーズ検出器によって生成される,手軽に利用可能な中間的視覚表現を活用する,単純かつ強力なソリューションを提案する。
論文 参考訳(メタデータ) (2023-11-06T18:04:13Z) - Improving 3D Pose Estimation for Sign Language [38.20064386142944]
この研究は、単一の画像における3次元人間のポーズ復元に対処する。
本稿では,フォワード・キネマティクス(FK)とニューラルネットワークを組み合わせた3次元ポーズの高速かつ有効な予測手法を提案する。
論文 参考訳(メタデータ) (2023-08-18T13:05:10Z) - Capturing the motion of every joint: 3D human pose and shape estimation
with independent tokens [34.50928515515274]
モノクロ映像から3次元人物のポーズと形状を推定する新しい手法を提案する。
提案手法は,3DPWおよびHuman3.6Mデータセット上での優れた性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T07:48:01Z) - Piecewise Planar Hulls for Semi-Supervised Learning of 3D Shape and Pose
from 2D Images [133.68032636906133]
本研究では,1つの2次元画像から,物体の3次元形状とポーズをキーポイントで推定する問題について検討する。
形状とポーズは、カテゴリによって収集された画像と、その部分的な2Dキーポイントアノテーションから直接学習される。
論文 参考訳(メタデータ) (2022-11-14T16:18:11Z) - Learning Visibility for Robust Dense Human Body Estimation [78.37389398573882]
2D画像から3Dのポーズと形状を推定することは、非常に難しい課題だ。
部分的な観察に頑健な高密度な人体推定を学習する。
我々は、高密度UV通信から可視性ラベルの擬似基底構造を取得し、3次元座標とともに可視性を予測するニューラルネットワークを訓練する。
論文 参考訳(メタデータ) (2022-08-23T00:01:05Z) - VoxelTrack: Multi-Person 3D Human Pose Estimation and Tracking in the
Wild [98.69191256693703]
本稿では,VoxelTrackを用いて,多人数の3次元ポーズ推定と,広義のベースラインで分離された少数のカメラからの追跡を行う。
マルチブランチネットワークを使用して、環境中のすべての人に3Dポーズと再識別機能(Re-ID)を共同で推定する。
これは、Shelf、Campus、CMU Panopticの3つの公開データセットに対して、最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-08-05T08:35:44Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。