論文の概要: 3D Human Pose, Shape and Texture from Low-Resolution Images and Videos
- arxiv url: http://arxiv.org/abs/2103.06498v1
- Date: Thu, 11 Mar 2021 06:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-12 14:58:18.043787
- Title: 3D Human Pose, Shape and Texture from Low-Resolution Images and Videos
- Title(参考訳): 低分解能画像と映像による3Dヒューマンポース, 形状, テクスチャー
- Authors: Xiangyu Xu, Hao Chen, Francesc Moreno-Noguer, Laszlo A. Jeni, Fernando
De la Torre
- Abstract要約: 本稿では,解像度認識ネットワーク,自己スーパービジョン損失,コントラスト学習スキームからなるrsc-netを提案する。
提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。
低解像度映像を扱うRSC-Netを拡張し、低解像度入力からテクスチャ化された3D歩行者の再構築に適用します。
- 参考スコア(独自算出の注目度): 107.36352212367179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D human pose and shape estimation from monocular images has been an active
research area in computer vision. Existing deep learning methods for this task
rely on high-resolution input, which however, is not always available in many
scenarios such as video surveillance and sports broadcasting. Two common
approaches to deal with low-resolution images are applying super-resolution
techniques to the input, which may result in unpleasant artifacts, or simply
training one model for each resolution, which is impractical in many realistic
applications.
To address the above issues, this paper proposes a novel algorithm called
RSC-Net, which consists of a Resolution-aware network, a Self-supervision loss,
and a Contrastive learning scheme. The proposed method is able to learn 3D body
pose and shape across different resolutions with one single model. The
self-supervision loss enforces scale-consistency of the output, and the
contrastive learning scheme enforces scale-consistency of the deep features. We
show that both these new losses provide robustness when learning in a
weakly-supervised manner. Moreover, we extend the RSC-Net to handle
low-resolution videos and apply it to reconstruct textured 3D pedestrians from
low-resolution input. Extensive experiments demonstrate that the RSC-Net can
achieve consistently better results than the state-of-the-art methods for
challenging low-resolution images.
- Abstract(参考訳): 3次元人間のポーズと単眼画像からの形状推定はコンピュータビジョンの活発な研究分野である。
このタスクの既存のディープラーニング手法は高解像度入力に依存しているが、ビデオ監視やスポーツ放送といった多くのシナリオでは必ずしも利用できない。
低解像度画像を扱う2つの一般的なアプローチは、入力に超解像技術を適用することであり、これは不快な成果物をもたらす可能性がある。
そこで本論文では,Resolution-awareネットワーク,Self-supervision Loss,Contrastive Learning Schepeから構成されるRSC-Netと呼ばれるアルゴリズムを提案する。
提案手法は1つのモデルで異なる解像度で3次元物体のポーズと形状を学習できる。
自己監督損失は出力のスケール一貫性を強制し、コントラスト学習スキームは深い機能のスケール一貫性を強制する。
これらの新たな損失はいずれも,教師の少ない方法で学習する場合の堅牢性を示す。
さらに,低解像度映像を扱うためにRCC-Netを拡張し,低解像度入力からテクスチャ化された3D歩行者を再構築する。
広範な実験により、RSC-Netは、低解像度画像に挑戦するための最先端の方法よりも一貫して優れた結果を達成できることを示しています。
関連論文リスト
- Markerless Multi-view 3D Human Pose Estimation: a survey [0.49157446832511503]
3D人間のポーズ推定は、複数の関節を検知することで、シーン内のすべての個人の骨格を再構築することを目的としている。
3Dポーズの再構築に関わるすべての課題を解決する方法はまだない。
さらに、高い精度の3Dポーズを計算コストで迅速に推測できるアプローチを開発するためには、さらなる研究が必要である。
論文 参考訳(メタデータ) (2024-07-04T10:44:35Z) - PONet: Robust 3D Human Pose Estimation via Learning Orientations Only [116.1502793612437]
本稿では,学習向きのみを用いて3次元ポーズを頑健に推定できる新しいPose Orientation Net(PONet)を提案する。
PONetは、局所的な画像証拠を利用して、これらの手足の3D方向を推定し、3Dポーズを復元する。
我々は,Human3.6M,MPII,MPI-INF-3DHP,3DPWを含む複数のデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-12-21T12:48:48Z) - Detailed 3D Human Body Reconstruction from Multi-view Images Combining
Voxel Super-Resolution and Learned Implicit Representation [12.459968574683625]
多視点画像から詳細な3次元人体を再構築する粗い方法を提案する。
粗い3Dモデルは、マルチスケールな特徴に基づいて暗黙表現を学習することによって推定される。
洗練された3D人体モデルは、詳細を保存できるボクセル超解像によって製造することができる。
論文 参考訳(メタデータ) (2020-12-11T08:07:39Z) - 3D Human Shape and Pose from a Single Low-Resolution Image with
Self-Supervised Learning [105.49950571267715]
3次元人物形状とポーズ推定のための既存のディープラーニング手法は、比較的高解像度な入力画像に依存している。
本稿では,レゾリューション・アウェア・ネットワーク,セルフ・スーパービジョン・ロス,コントラッシブ・ラーニング・スキームからなるRCC-Netを提案する。
これら2つの新たなトレーニング損失は,3次元形状を学習し,弱教師ありの姿勢を示す。
論文 参考訳(メタデータ) (2020-07-27T16:19:52Z) - Lightweight Multi-View 3D Pose Estimation through Camera-Disentangled
Representation [57.11299763566534]
空間校正カメラで撮影した多視点画像から3次元ポーズを復元する手法を提案する。
我々は3次元形状を利用して、入力画像をカメラ視点から切り離したポーズの潜在表現に融合する。
アーキテクチャは、カメラプロジェクション演算子に学習した表現を条件付け、ビュー当たりの正確な2次元検出を生成する。
論文 参考訳(メタデータ) (2020-04-05T12:52:29Z) - Learning Pose-invariant 3D Object Reconstruction from Single-view Images [61.98279201609436]
本稿では,単視点画像のみから3次元形状を学習する,より現実的な構成について検討する。
最大の難しさは、単一のビューイメージが提供できる制約の不足にある。
本稿では, 対角コンパクトな形状空間を学習するために, 効果的な対角領域混同法を提案する。
論文 参考訳(メタデータ) (2020-04-03T02:47:35Z) - Weakly-Supervised 3D Human Pose Learning via Multi-view Images in the
Wild [101.70320427145388]
本稿では、3Dアノテーションを必要としない弱教師付きアプローチを提案し、ラベルのないマルチビューデータから3Dポーズを推定する。
提案手法を2つの大規模データセット上で評価する。
論文 参考訳(メタデータ) (2020-03-17T08:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。