論文の概要: Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation
- arxiv url: http://arxiv.org/abs/2112.12917v1
- Date: Fri, 24 Dec 2021 02:43:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-29 17:43:44.703855
- Title: Multi-initialization Optimization Network for Accurate 3D Human Pose and
Shape Estimation
- Title(参考訳): 高精度3次元ポーズと形状推定のための複数初期化最適化ネットワーク
- Authors: Zhiwei Liu, Xiangyu Zhu, Lu Yang, Xiang Yan, Ming Tang, Zhen Lei,
Guibo Zhu, Xuetao Feng, Yan Wang, Jinqiao Wang
- Abstract要約: 我々はMulti-Initialization Optimization Network(MION)という3段階のフレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
- 参考スコア(独自算出の注目度): 75.44912541912252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D human pose and shape recovery from a monocular RGB image is a challenging
task. Existing learning based methods highly depend on weak supervision
signals, e.g. 2D and 3D joint location, due to the lack of in-the-wild paired
3D supervision. However, considering the 2D-to-3D ambiguities existed in these
weak supervision labels, the network is easy to get stuck in local optima when
trained with such labels. In this paper, we reduce the ambituity by optimizing
multiple initializations. Specifically, we propose a three-stage framework
named Multi-Initialization Optimization Network (MION). In the first stage, we
strategically select different coarse 3D reconstruction candidates which are
compatible with the 2D keypoints of input sample. Each coarse reconstruction
can be regarded as an initialization leads to one optimization branch. In the
second stage, we design a mesh refinement transformer (MRT) to respectively
refine each coarse reconstruction result via a self-attention mechanism.
Finally, a Consistency Estimation Network (CEN) is proposed to find the best
result from mutiple candidates by evaluating if the visual evidence in RGB
image matches a given 3D reconstruction. Experiments demonstrate that our
Multi-Initialization Optimization Network outperforms existing 3D mesh based
methods on multiple public benchmarks.
- Abstract(参考訳): 単眼のrgb画像からの3d人間のポーズと形状復元は難しい課題である。
既存の学習に基づく手法は、例えば2dと3dのジョイント位置といった弱い監督信号に大きく依存している。
しかし、これらの弱い監督ラベルには2Dから3Dの曖昧さがあるので、そのようなラベルで訓練すると、ネットワークは局所的な最適条件で立ち往生しやすい。
本稿では,複数の初期化を最適化することで,アンビチュアリティを低減する。
具体的には,マルチイニシャライズ最適化ネットワーク(mion)と呼ばれる3段階フレームワークを提案する。
第1段階では,入力サンプルの2次元キーポイントに適合する粗い3次元再構成候補を戦略的に選択する。
各粗い再構成は初期化と見なすことができ、1つの最適化分岐につながる。
第2段階では, メッシュ改質トランス (MRT) を設計し, 自己保持機構を用いて粗い再構成結果をそれぞれ洗練する。
最後に,RGB画像の視覚的証拠が与えられた3次元再構成と一致するかどうかを評価することで,複数の候補から最高の結果を得るために,一貫性推定ネットワーク(CEN)を提案する。
実験により、当社のマルチ初期化最適化ネットワークは、既存の3Dメッシュベースのメソッドを複数の公開ベンチマークで上回ります。
関連論文リスト
- Sampling is Matter: Point-guided 3D Human Mesh Reconstruction [0.0]
本稿では,1枚のRGB画像から3次元メッシュ再構成を行うための簡易かつ強力な手法を提案する。
評価実験の結果,提案手法は3次元メッシュ再構成の性能を効率よく向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T08:45:26Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - End-to-end Weakly-supervised Single-stage Multiple 3D Hand Mesh
Reconstruction from a Single RGB Image [9.238322841389994]
複数手再構成のための単一段パイプラインを提案する。
具体的には,複数ヘッドのオートエンコーダ構造を設計し,各ヘッドネットワークが同じ特徴マップを共有し,ハンドセンター,ポーズ,テクスチャを出力する。
本手法は,弱教師付き手法と完全教師付き手法の両方において,最先端のモデルベース手法よりも優れる。
論文 参考訳(メタデータ) (2022-04-18T03:57:14Z) - Permutation-Invariant Relational Network for Multi-person 3D Pose
Estimation [46.38290735670527]
単一のRGB画像から複数の人物の3Dポーズを復元することは、非常に不適切な問題である。
近年の研究では、異なる人物の推論を同時に行うことで、地域内のすべての事例において有望な成果を上げている。
PI-Netは、画像中のすべての人を同時に推論するための自己注意ブロックを導入し、ノイズの多い最初の3Dポーズを洗練します。
本稿では,集合変換器上に構築された置換不変な手法を用いて,人間同士の相互作用全体を,その数と独立にモデル化する。
論文 参考訳(メタデータ) (2022-04-11T07:23:54Z) - Multi-Modality Task Cascade for 3D Object Detection [22.131228757850373]
多くの手法は2つのモデルを個別に訓練し、単純な特徴結合を用いて3Dセンサーデータを表現している。
本稿では,3次元ボックスの提案を利用して2次元セグメンテーション予測を改善する新しいマルチモードタスクカスケードネットワーク(MTC-RCNN)を提案する。
2段階の3次元モジュール間の2次元ネットワークを組み込むことで,2次元および3次元のタスク性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-07-08T17:55:01Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。