論文の概要: DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders
- arxiv url: http://arxiv.org/abs/2108.08557v1
- Date: Thu, 19 Aug 2021 08:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-21 00:36:37.092168
- Title: DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders
- Title(参考訳): DECA:カプセルオートエンコーダを用いた視点-同種の人物ポーズ推定
- Authors: Nicola Garau, Niccol\`o Bisagno, Piotr Br\'odka, Nicola Conci
- Abstract要約: トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 3.2826250607043796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human Pose Estimation (HPE) aims at retrieving the 3D position of human
joints from images or videos. We show that current 3D HPE methods suffer a lack
of viewpoint equivariance, namely they tend to fail or perform poorly when
dealing with viewpoints unseen at training time. Deep learning methods often
rely on either scale-invariant, translation-invariant, or rotation-invariant
operations, such as max-pooling. However, the adoption of such procedures does
not necessarily improve viewpoint generalization, rather leading to more
data-dependent methods. To tackle this issue, we propose a novel capsule
autoencoder network with fast Variational Bayes capsule routing, named DECA. By
modeling each joint as a capsule entity, combined with the routing algorithm,
our approach can preserve the joints' hierarchical and geometrical structure in
the feature space, independently from the viewpoint. By achieving viewpoint
equivariance, we drastically reduce the network data dependency at training
time, resulting in an improved ability to generalize for unseen viewpoints. In
the experimental validation, we outperform other methods on depth images from
both seen and unseen viewpoints, both top-view, and front-view. In the RGB
domain, the same network gives state-of-the-art results on the challenging
viewpoint transfer task, also establishing a new framework for top-view HPE.
The code can be found at https://github.com/mmlab-cv/DECA.
- Abstract(参考訳): human pose estimation (hpe) は、画像やビデオから人間の関節の3d位置を取得することを目的としている。
その結果,現在の3次元hpe法では,学習時に見当たらない視点に対処できない場合,失敗やパフォーマンスが低下する傾向がみられた。
深層学習法は、しばしばスケール不変、翻訳不変、最大プールのような回転不変の操作に依存する。
しかし、そのような手順の採用は必ずしも視点の一般化を改善せず、むしろデータ依存の方法に繋がる。
この問題に対処するために,高速変動ベイズカプセルルーティングを備えた新しいカプセルオートエンコーダネットワークdecaを提案する。
各ジョイントをカプセルエンティティとしてモデル化し,ルーティングアルゴリズムを組み合わせることにより,ジョイントの階層構造および幾何学構造を,視点から独立して保存することができる。
視点等価性を達成することにより、トレーニング時のネットワークデータの依存性を大幅に削減し、見当たらない視点を一般化する能力を向上させる。
実験による検証では、トップビューとフロントビューの両方の視点で、奥行き画像の他の方法よりも優れています。
rgbドメインでは、同じネットワークが挑戦的な視点転送タスクの最先端の結果を与え、トップビューhpeの新しいフレームワークも確立している。
コードはhttps://github.com/mmlab-cv/DECAにある。
関連論文リスト
- GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。
本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。
提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:59:50Z) - IPoD: Implicit Field Learning with Point Diffusion for Generalizable 3D Object Reconstruction from Single RGB-D Images [50.4538089115248]
シングルビューRGB-D画像からの3Dオブジェクトの汎用化は依然として難しい課題である。
本稿では,暗黙の場学習と点拡散を調和させる新しい手法IPoDを提案する。
CO3D-v2データセットによる実験では、IPoDの優位性が確認され、Fスコアは7.8%、チャンファー距離は28.6%向上した。
論文 参考訳(メタデータ) (2024-03-30T07:17:37Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Capsules as viewpoint learners for human pose estimation [4.246061945756033]
カメラが大きな視点変化を受けると、ほとんどのニューラルネットワークがうまく一般化できないことを示す。
本稿では,高速な変分ベイズルーティングとマトリックスカプセルを用いた,エンドツーエンドのポジショニング等価なカプセルオートエンコーダを提案する。
複数のタスクやデータセットに対して、他の望ましい特性を維持しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-13T09:01:46Z) - KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative
Spatial Encoding of Keypoints [28.234772596912165]
スパースビューから高忠実度体積アバターをモデル化するための高効率なアプローチを提案する。
鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。
実験の結果,先行作業における誤りの大部分は,空間符号化の不適切な選択に起因することがわかった。
論文 参考訳(メタデータ) (2022-05-10T15:57:03Z) - ConDor: Self-Supervised Canonicalization of 3D Pose for Partial Shapes [55.689763519293464]
ConDorは、完全および部分的な3次元点雲の3次元配向と位置を正準化することを学ぶ自己教師型手法である。
推測中,本手法は任意のポーズで完全あるいは部分的な3次元点の雲を抽出し,同変正則のポーズを出力する。
論文 参考訳(メタデータ) (2022-01-19T18:57:21Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Monocular 3D Detection with Geometric Constraints Embedding and
Semi-supervised Training [3.8073142980733]
我々は,KM3D-Netと呼ばれる,RGB画像のみを用いたモノクル3Dオブジェクト検出のための新しいフレームワークを提案する。
我々は、対象のキーポイント、次元、方向を予測するための完全な畳み込みモデルを設計し、これらの推定を視点幾何学的制約と組み合わせて位置属性を計算する。
論文 参考訳(メタデータ) (2020-09-02T00:51:51Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - Towards Better Generalization: Joint Depth-Pose Learning without PoseNet [36.414471128890284]
自己教師型共同深層学習におけるスケール不整合の本質的問題に対処する。
既存の手法の多くは、全ての入力サンプルで一貫した深さとポーズを学習できると仮定している。
本稿では,ネットワーク推定からスケールを明示的に切り離す新しいシステムを提案する。
論文 参考訳(メタデータ) (2020-04-03T00:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。