論文の概要: Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations
- arxiv url: http://arxiv.org/abs/2001.01613v1
- Date: Mon, 6 Jan 2020 14:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-14 02:10:17.239791
- Title: Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations
- Title(参考訳): 連鎖表現サイクリング:表現間のサイクリングによる3次元人間のポーズと形状推定の学習
- Authors: Nadine Rueegg, Christoph Lassner, Michael J. Black, Konrad Schindler
- Abstract要約: 本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
- 参考スコア(独自算出の注目度): 73.11883464562895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of many computer vision systems is to transform image pixels into 3D
representations. Recent popular models use neural networks to regress directly
from pixels to 3D object parameters. Such an approach works well when
supervision is available, but in problems like human pose and shape estimation,
it is difficult to obtain natural images with 3D ground truth. To go one step
further, we propose a new architecture that facilitates unsupervised, or
lightly supervised, learning. The idea is to break the problem into a series of
transformations between increasingly abstract representations. Each step
involves a cycle designed to be learnable without annotated training data, and
the chain of cycles delivers the final solution. Specifically, we use 2D body
part segments as an intermediate representation that contains enough
information to be lifted to 3D, and at the same time is simple enough to be
learned in an unsupervised way. We demonstrate the method by learning 3D human
pose and shape from un-paired and un-annotated images. We also explore varying
amounts of paired data and show that cycling greatly alleviates the need for
paired data. While we present results for modeling humans, our formulation is
general and can be applied to other vision problems.
- Abstract(参考訳): 多くのコンピュータビジョンシステムの目標は、画像ピクセルを3D表現に変換することである。
最近の人気モデルでは、ニューラルネットワークを使ってピクセルから3Dオブジェクトパラメータに直接回帰している。
このようなアプローチは、監督が可能であればうまく機能するが、人間のポーズや形状推定といった問題では、3次元の地上真実を持つ自然画像を得ることは困難である。
さらに一歩進めるために、教師なし、あるいは軽々しく教師なしの学習を容易にする新しいアーキテクチャを提案する。
その考え方は、問題をますます抽象的な表現間の一連の変換に分解することである。
各ステップには、アノテートされたトレーニングデータなしで学習できるように設計されたサイクルが含まれます。
具体的には、2dボディ部分セグメントを3dに持ち上げるのに十分な情報を含む中間表現として使用すると同時に、教師なしの方法で学習できるほど単純である。
本研究では,無注画像と無注画像から3次元人間のポーズと形状を学習し,その方法を示す。
また,様々な量のペアデータを調査し,サイクリングがペアデータの必要性を大幅に軽減することを示した。
人間のモデリング結果を示す一方で、定式化は一般的であり、他の視覚問題にも適用できる。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Geometry aware 3D generation from in-the-wild images in ImageNet [18.157263188192434]
本稿では,カメラポーズ情報のない多種多様な非構造化画像ネットから3次元形状を再構成する手法を提案する。
2次元画像から3次元モデルを学習し,StyleGAN2に基づいて生成元バックボーンのアーキテクチャを変更するために,効率的な三面体表現を用いる。
訓練されたジェネレータは、任意の視点からのレンダリングだけでなく、クラス条件の3Dモデルを生成することができる。
論文 参考訳(メタデータ) (2024-01-31T23:06:39Z) - Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance
Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。
2Dと3Dのニューラルレンダリング技術の利点を利用する。
挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2022-03-29T17:59:15Z) - Neural Articulated Radiance Field [90.91714894044253]
本稿では,画像から学習した明瞭な物体に対する新しい変形可能な3次元表現であるニューラルArticulated Radiance Field(NARF)を提案する。
実験の結果,提案手法は効率的であり,新しいポーズにうまく一般化できることがわかった。
論文 参考訳(メタデータ) (2021-04-07T13:23:14Z) - Unsupervised 3D Human Pose Representation with Viewpoint and Pose
Disentanglement [63.853412753242615]
優れた3次元ポーズ表現を学習することは、人間のポーズ関連タスクにとって重要である。
本稿では,3次元ポーズ表現を学習するために,新しいシームズ・デノナイズドオートエンコーダを提案する。
提案手法は,2つの本質的に異なるタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-07-14T14:25:22Z) - From Image Collections to Point Clouds with Self-supervised Shape and
Pose Networks [53.71440550507745]
2次元画像から3Dモデルを再構成することは、コンピュータビジョンの基本的な問題の一つである。
本研究では,1枚の画像から3次元オブジェクトを再構成する深層学習手法を提案する。
我々は,3次元点雲の再構成と推定ネットワークの自己教師方式の両方を学習する。
論文 参考訳(メタデータ) (2020-05-05T04:25:16Z) - PoseNet3D: Learning Temporally Consistent 3D Human Pose via Knowledge
Distillation [6.023152721616894]
PoseNet3Dは入力として2D関節を取り、3DスケルトンとSMPLボディモデルパラメータを出力する。
まず,3Dスケルトンを出力する教師ネットワークをトレーニングし,その知識をSMPL表現で3Dスケルトンを予測する学生ネットワークに抽出する。
3次元ポーズ推定のためのHuman3.6Mデータセットの結果,従来の教師なし手法と比較して3次元関節予測誤差が18%減少することが示された。
論文 参考訳(メタデータ) (2020-03-07T00:10:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。