論文の概要: SimPose: Effectively Learning DensePose and Surface Normals of People
from Simulated Data
- arxiv url: http://arxiv.org/abs/2007.15506v1
- Date: Thu, 30 Jul 2020 14:59:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 14:26:01.148890
- Title: SimPose: Effectively Learning DensePose and Surface Normals of People
from Simulated Data
- Title(参考訳): SimPose: シミュレーションデータからDensePoseとSurface Normalsを効果的に学習する
- Authors: Tyler Zhu, Per Karlsson, Christoph Bregler
- Abstract要約: 本稿では,1画素あたり2.5Dと3次元回帰表現の難易度を学習する手法を提案する。
2.5DPose推定タスクと3次元人体表面の正規分布推定タスクに対して,強力なsim-to-real領域の一般化を得た。
提案手法は既存の領域適応手法と相補的であり,他の高密度画素間ポーズ推定問題にも適用可能である。
- 参考スコア(独自算出の注目度): 7.053519629075887
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a proliferation of generic domain-adaptation approaches, we report a
simple yet effective technique for learning difficult per-pixel 2.5D and 3D
regression representations of articulated people. We obtained strong
sim-to-real domain generalization for the 2.5D DensePose estimation task and
the 3D human surface normal estimation task. On the multi-person DensePose
MSCOCO benchmark, our approach outperforms the state-of-the-art methods which
are trained on real images that are densely labelled. This is an important
result since obtaining human manifold's intrinsic uv coordinates on real images
is time consuming and prone to labeling noise. Additionally, we present our
model's 3D surface normal predictions on the MSCOCO dataset that lacks any real
3D surface normal labels. The key to our approach is to mitigate the
"Inter-domain Covariate Shift" with a carefully selected training batch from a
mixture of domain samples, a deep batch-normalized residual network, and a
modified multi-task learning objective. Our approach is complementary to
existing domain-adaptation techniques and can be applied to other dense
per-pixel pose estimation problems.
- Abstract(参考訳): 汎用的ドメイン適応手法の普及に伴い,画素毎2.5dの難易度と3次元回帰表現の学習において,単純かつ効果的な手法を提示する。
2.5次元密度場推定タスクと3次元面正規推定タスクの強いsim-to-realドメイン一般化を得た。
マルチパーソンのDensePose MSCOCOベンチマークでは、密にラベル付けされた実画像に基づいてトレーニングされた最先端の手法よりも優れている。
これは、実画像上の人間多様体の固有uv座標を得るのに時間がかかり、ノイズのラベル付けに時間がかかるため重要な結果である。
さらに,本モデルでは実際の3次元表面正規ラベルを欠いたMSCOCOデータセット上での3次元表面正規予測について述べる。
このアプローチの鍵となるのは、"Inter-domain Covariate Shift"を、ドメインサンプル、ディープバッチ正規化残留ネットワーク、修正マルチタスク学習目標から慎重に選択されたトレーニングバッチで緩和することです。
提案手法は既存の領域適応手法を補完するものであり,他の高密度画素間ポーズ推定問題に適用できる。
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Source-Free and Image-Only Unsupervised Domain Adaptation for Category
Level Object Pose Estimation [18.011044932979143]
3DUDAは、3Dや深度データを使わずに、ニュアンスドライデンのターゲットドメインに適応できる手法である。
対象のカテゴリを単純な立方体メッシュとして表現し、ニューラル特徴活性化の生成モデルを利用する。
本手法は,グローバルな擬似ラベル付きデータセットの微調整を軽度な仮定でシミュレートする。
論文 参考訳(メタデータ) (2024-01-19T17:48:05Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - Back to Optimization: Diffusion-based Zero-Shot 3D Human Pose Estimation [29.037799937729687]
学習に基づく手法は、従来の最適化に基づく手法よりも多くのベンチマークにおいて非常に優れた性能を持つ3Dヒューマンポーズ推定(HPE)タスクを支配している。
我々は3次元HPEのためのtextbfZero-shot textbfDiffusion-based textbfOptimization (textbfZeDO) パイプラインを提案する。
われわれはHuman3.6Mにおける最先端(SOTA)のパフォーマンスをminMPJPE$51.4$で達成している。
論文 参考訳(メタデータ) (2023-07-07T21:03:18Z) - Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence
Learning [70.75369367311897]
3D対応のグローバルな対応は、グローバルな意味的相関、局所的な変形、および3D人体の幾何学的先行を共同でエンコードする信頼性のあるフローである。
対向ジェネレータは、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。
論文 参考訳(メタデータ) (2022-11-25T12:16:21Z) - Normal Transformer: Extracting Surface Geometry from LiDAR Points
Enhanced by Visual Semantics [6.516912796655748]
本稿では,3次元点雲と2次元カラー画像から正規分布を推定する手法を提案する。
我々は,視覚的セマンティクスと3次元幾何データのハイブリッド情報を活用することを学ぶトランスフォーマーニューラルネットワークを開発した。
論文 参考訳(メタデータ) (2022-11-19T03:55:09Z) - Graph-Based 3D Multi-Person Pose Estimation Using Multi-View Images [79.70127290464514]
我々は,タスクを2つの段階,すなわち人物のローカライゼーションとポーズ推定に分解する。
また,効率的なメッセージパッシングのための3つのタスク固有グラフニューラルネットワークを提案する。
提案手法は,CMU Panoptic と Shelf のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T11:44:07Z) - Adapted Human Pose: Monocular 3D Human Pose Estimation with Zero Real 3D
Pose Data [14.719976311208502]
トレーニングとテストデータドメインのギャップは、しばしばモデルのパフォーマンスに悪影響を及ぼします。
本稿では、外見とポーズ空間の両方における適応問題に対処する適応的ヒューマンポーズ(AHuP)アプローチを提案する。
AHuPは、実際のアプリケーションでは、ターゲットドメインからのデータはアクセスできないか、限られた情報しか取得できないという現実的な前提に基づいて構築されている。
論文 参考訳(メタデータ) (2021-05-23T01:20:40Z) - Locally Aware Piecewise Transformation Fields for 3D Human Mesh
Registration [67.69257782645789]
本論文では,3次元変換ベクトルを学習し,提案空間内の任意のクエリ点をリザーブ空間内の対応する位置にマップする部分変換場を提案する。
パラメトリックモデルにネットワークのポーズを合わせることで、特に極端なポーズにおいて、より優れた登録品質が得られることを示す。
論文 参考訳(メタデータ) (2021-04-16T15:16:09Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。