論文の概要、ライセンス

# (参考訳) Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 [全文訳有]

Learned Vertex Descent: A New Direction for 3D Human Model Fitting ( http://arxiv.org/abs/2205.06254v1 )

ライセンス: CC BY 4.0
Enric Corona, Gerard Pons-Moll, Guillem Aleny\`a, Francesc Moreno-Noguer(参考訳) 画像やスキャンに適合する3次元モデルのための新しい最適化手法を提案する。 入力画像から低次元統計体モデル(例えばSMPL)のパラメータを直接回帰する既存のアプローチとは対照的に、我々は頂点間ニューラルネットワークのアンサンブルを訓練する。 ネットワークは、現在の頂点投影で抽出された神経的特徴に基づいて、分散的に、基底真理に向かって頂点降下方向を予測する。 推測では、このネットワークはLVDと呼ばれ、勾配-偏光最適化パイプライン内で、すべての頂点を1つの点に初期化しても、その収束は通常1秒で発生する。 徹底的な評価は、我々のアプローチが、非常に異なる体型を持つ衣服を身につけることができ、最先端技術と比較して大きな改善が達成できることを示している。 LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAを大幅に改善したことを示す。

We propose a novel optimization-based paradigm for 3D human model fitting on images and scans. In contrast to existing approaches that directly regress the parameters of a low-dimensional statistical body model (e.g. SMPL) from input images, we train an ensemble of per-vertex neural fields network. The network predicts, in a distributed manner, the vertex descent direction towards the ground truth, based on neural features extracted at the current vertex projection. At inference, we employ this network, dubbed LVD, within a gradient-descent optimization pipeline until its convergence, which typically occurs in a fraction of a second even when initializing all vertices into a single point. An exhaustive evaluation demonstrates that our approach is able to capture the underlying body of clothed people with very different body shapes, achieving a significant improvement compared to state-of-the-art. LVD is also applicable to 3D model fitting of humans and hands, for which we show a significant improvement to the SOTA with a much simpler and faster method.
公開日: Thu, 12 May 2022 17:55:51 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
2 2 0 2 y a M 2 1 2 2 0 2 y a m 2 1 である。 0.52
] V C . s c [ ] 略称はC。 sc [ 0.39
1 v 4 5 2 6 0 1 v 4 5 2 6 0 0.43
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
A New Direction for 3D Human Model Fitting 3次元人体模型フィッティングの新しい方向性 0.81
Learned Vertex Descent: Learned Vertex Descent(英語) 0.60
Enric Corona1, Gerard Pons-Moll2,3, Guillem Aleny`a1, and Enric Corona1, Gerard Pons-Moll2,3, Guillem Aleny`a1, and 0.38
Francesc Moreno-Noguer1 フランチェスク・モレノ・ノゲール1号 0.40
1Institut de Rob`otica i Inform`atica Industrial, CSIC-UPC, Barcelona, Spain スペイン・バルセロナ, CSIC-UPC産業研究所 0.41
2University of T¨ubingen, Germany, 3Max Planck Institute for Informatics, Germany ドイツ・チュービンゲン大学, 3max planck institute for informatics, ドイツ 0.73
Abstract. We propose a novel optimization-based paradigm for 3D human model fitting on images and scans. 抽象。 画像やスキャンに適合する3次元モデルのための新しい最適化手法を提案する。 0.57
In contrast to existing approaches that directly regress the parameters of a low-dimensional statistical body model (e g SMPL) from input images, we train an ensemble of per vertex neural fields network. 入力画像から低次元統計体モデル(例えばSMPL)のパラメータを直接回帰する既存のアプローチとは対照的に、頂点ごとのニューラルネットワークのアンサンブルを訓練する。 0.72
The network predicts, in a distributed manner, the vertex descent direction towards the ground truth, based on neural features extracted at the current vertex projection. ネットワークは、現在の頂点投影で抽出された神経的特徴に基づいて、分散的に、基底真理に向かって頂点降下方向を予測する。 0.73
At inference, we employ this network, dubbed LVD, within a gradient-descent optimization pipeline until its convergence, which typically occurs in a fraction of a second even when initializing all vertices into a single point. 推測では、このネットワークはLVDと呼ばれ、勾配-偏光最適化パイプライン内で、すべての頂点を1つの点に初期化しても、その収束は通常1秒で発生する。 0.66
An exhaustive evaluation demonstrates that our approach is able to capture the underlying body of clothed people with very different body shapes, achieving a significant improvement compared to state-of-the-art. 徹底的な評価は、我々のアプローチが、非常に異なる体型を持つ衣服を身につけることができ、最先端技術と比較して大きな改善が達成できることを示している。 0.58
LVD is also applicable to 3D model fitting of humans and hands, for which we show a significant improvement to the SOTA with a much simpler and faster method. LVDはまた、人間と手の3次元モデル適合にも適用でき、よりシンプルで高速な方法でSOTAを大幅に改善したことを示す。 0.74
1 Introduction Fitting 3D human models to data (single images / video / scans) is a highly ambiguous problem. 1 はじめに 人間の3Dモデルをデータ(単一の画像/ビデオ/スキャン)に合わせることは、非常に曖昧な問題である。 0.56
The standard approach to overcome this is by introducing statistical shape priors [5,44,81] controlled by a reduced number of parameters. これを解決するための標準的なアプローチは、パラメータの減少によって制御される統計的形状の先行[5,44,81]を導入することである。
訳抜け防止モード: これを克服する標準的なアプローチは 統計型プリエントの導入 [5,44,81 ] パラメータの削減によって制御される。
0.78
Shape recovery then entails at estimating these parameters from data. 次にシェープリカバリは、データからこれらのパラメータを推定する。 0.68
There exist two main paradigms for doing so. そのためのパラダイムは2つあります。 0.47
On the one side, optimization-based methods iteratively search for the model parameters that best match available image cues, like 2D keypoints [56,11,6,37], silhouettes [41,75] or dense correspondences [28]. 一方、最適化に基づく手法では、2dキーポイント[56,11,6,37]、シルエット[41,75]、密接な対応[28]といった、利用可能な画像キューに最も適したモデルパラメータを反復的に探索する。
訳抜け防止モード: 一方、最適化-ベースメソッドは、利用可能な画像キューに最も合うモデルパラメータを反復的に検索する。 2Dキーポイント[56,11,6,37] シルエット[41,75] あるいは 密度の高い通信[28]
0.71
On the other side, data-driven regression methods for mesh recovery leverage deep neural networks to directly predict the model parameters from the input [34,28,57,18,25,4,52]. 一方、メッシュリカバリのためのデータ駆動回帰手法は、ディープニューラルネットワークを利用して入力[34,28,57,18,25,4,52]からモデルパラメータを直接予測する。 0.61
In between these two streams, there are recent approaches that build hybrid methods combining optimization-regress ion schemes [83,33,37,77]. これら2つのストリームの間には,最適化回帰スキーム [83,33,37,77] を組み合わせたハイブリッド手法を構築する最近のアプローチがある。 0.62
Regardless of the inference method, optimization or regression, and input modality, 2D evidence based on the entire image, keypoints, silhouettes, pointclouds, all these previous methods aim at estimating the parameters of a lowdimensional model (typically based on SMPL [44]). 推測法、最適化法、回帰法、入力モダリティにかかわらず、画像全体、キーポイント、シルエット、ポイントクラウドに基づく2次元エビデンスにより、これらの従来の手法はすべて、低次元モデルのパラメータ(通常SMPL [44])を推定することを目的としている。 0.66
However, as we will show in しかし、私たちがお見せするとおり、 0.59
英語(論文から抽出)日本語訳スコア
2 Corona et al Fig. 1. 2 コロナなど 図1。 0.35
Learned Vertex Descent (LVD) is a novel optimization strategy in which a network leverages local image or volumetric features to iteratively predict per-vertex directions towards an optimal body/hand surface. Learned Vertex Descent (LVD) は、ネットワークがローカル画像やボリューム特徴を利用して、最適なボディ/ハンドサーフェスへの頂点毎の方向を反復的に予測する、新しい最適化戦略である。 0.63
The proposed approach is directly applicable to different tasks with minimal changes on the network, and we show it can fit a much larger variability of body shapes than previous state-of-the-art. 提案手法は,ネットワーク上の変化を最小限に抑えながら,異なるタスクに直接適用可能であり,従来よりも身体形状のバラツキに適合することを示す。 0.83
The figure depicts results on the three tasks where we have evaluated LVD: body shape reconstruction from a single image, and 3D fitting of body and hand scans. この図は、lvdを評価する3つの課題、すなわち、単一の画像からの体型再構成と、身体と手のスキャンの3dフィッティングの結果を描いている。 0.55
the experimental section, these models struggle in capturing detailed body shape, specially for morphotypes departing from the mean (overweight or skinny people) or when the person is wearing loose clothing. 実験のセクションでは、これらのモデルは、特に平均(太りすぎまたは細い人)から離れた形態タイプや、人がゆるい服を着ているときに、詳細な体形を捉えるのに苦労しています。 0.58
We hypothesize that this is produced by two main reasons: これは2つの主な理由によって生成されると仮定する。 0.55
1) the models induce a bias towards the mean shape; and 1) モデルは,平均形状に対するバイアスを誘導し, 0.75
2) the mapping from local image / pointcloud features to global shape parameters is highly non-linear. 2) 局所像/ポイントクラウド特徴から大域形状パラメータへのマッピングは, 線形ではない。 0.84
This makes optimization-based approaches prone to get stuck at local minima and have slow run times. これにより、最適化ベースのアプローチは、ローカルなミニマで行き詰まりやすく、実行時間が遅い。
訳抜け防止モード: これにより最適化が実現される - ローカルなミニマで行き詰まりやすいアプローチ ランニングタイムも遅い。
0.72
Global shape regression methods lack the error-feedback loop of optimization methods (comparing the current estimate against image / scan input), and hence exhibit an even more pronounced bias towards mean shapes. グローバル形状回帰法は最適化法(画像/スキャン入力に対する現在の推定値と比較)の誤差フィードバックループを欠いているため、平均形状に対するより明確なバイアスを示す。 0.82
Overcoming this problem would require immense amounts of training data, which is infeasible for 3D bodies. この問題を克服するには、大量のトレーニングデータが必要になるだろう。
訳抜け防止モード: この問題を克服する 3Dボディでは不可能な大量のトレーニングデータが必要です。
0.76
To recover more detail, recent works regress or optimize a set of displacements on top of SMPL global shape [3,1,4,10,55], local surface elements [45] or points [47]. より詳しくは, SMPLグローバル形状[3,1,4,10,55], 局所表面要素[45], 点[47]の上の変位の集合を回帰又は最適化する。 0.82
Like us, [38] by-pass the regression of global shape parameters and regress model vertices direclty. 私たちと同様、[38]大域的形状パラメータの回帰と回帰モデル頂点が不完全である。 0.71
However, similar to displacement-based methods [1,4], the proposed regression scheme [38] predicts the position of all points in one single pass and lacks an error-feedback loop. しかし, 変位に基づく手法 [1,4] と同様に, 提案する回帰スキーム [38] は, 1 つのパス中のすべての点の位置を予測し, 誤差フィードバックループを欠いている。 0.75
Hence, these methods regress a global shape in one pass based on global image features and also suffer from bias towards the mean. したがって、これらの手法は、グローバルな画像の特徴に基づいて1回のパスでグローバルな形状を保ち、平均へのバイアスを被る。 0.63
Works based on implicit surfaces [17,69,70] address these limitations by making point-wise distributed predictions. 暗黙の曲面 [17,69,70] に基づく作業は、ポイントワイドな予測を行うことによってこれらの制限に対処する。 0.46
Being more local, they require less training data. ローカルであることから、トレーニングデータが少なくなる。 0.71
However, these methods do not produce surfaces with a coherent parameterization (e g SMPL vertices), and hence control is only possible with subsequent model fitting, which is hard if correspondences are not known [8,9,32,30]. しかし、これらの方法はコヒーレントなパラメータ化(例えば、smpl vertices)を持つ曲面を生成せず、従ってモデルフィッティングでのみ制御が可能であり、対応が分かっていない場合は難しい [8,9,32,30]。 0.69
In this paper, we propose a significantly different approach to all prior model fitting methods. 本稿では,すべての事前モデルフィッティング手法に対して,かなり異なるアプローチを提案する。 0.81
Inspired by classical model-based fitting, where image gradients drive the direction of vertices and in turn global shape parameters, we propose to iteratively learn where 3D vertices should move based on neural features. 画像勾配が頂点の方向を駆動する古典的なモデルに基づくフィッティングに着想を得て,脳の3d頂点がどこに移動するべきかを,神経的特徴に基づいて反復的に学習する。 0.69
For that purpose, we devise a novel data-driven optimization in which an ensemble of per-vertex neural fields is trained to predict the optimal 3D vertex displacement そこで我々は,各頂点のニューラルネットワークのアンサンブルを訓練し,最適な3次元頂点変位を予測する新しいデータ駆動最適化を考案する。 0.75
Bodyshapeestimation3 D body registration3D hand registrationInputInp utInputInputPred.Pre d.Pred.Pred. Bodyshapeestation3D body registration3D hand registrationInputInp utPred.Pred.Pred.Pre d 0.22
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
3 towards the ground-truth, based on local neural features extracted at the current vertex location. 3 現在の頂点位置で抽出された局所的なニューラル特徴に基づいて、地道に向けて。 0.51
We dub this network LVD, from ‘Learned Vertex Descent’. 私たちはこのネットワークのLVDを‘Learned Vertex Descent’から掘り下げた。 0.71
At inference, given an input image or scan, we initialize all mesh vertices into a single point and iteratively query LVD to estimate the vertex displacement in a gradient descent manner. 入力画像やスキャンが与えられた場合、全てのメッシュ頂点を単一点に初期化し、LVDを反復的にクエリして、勾配降下法による頂点変位を推定する。 0.70
We conduct a thorough evaluation of the proposed learning-based optimization approach. 提案する学習に基づく最適化手法を徹底的に評価する。 0.80
Our experiments reveal that LVD combines the advantages of classical optimization and learning-based methods. 実験の結果,lvdは古典的最適化と学習に基づく手法の利点を併せ持つことが明らかとなった。 0.52
LVD captures off-mean shapes significantly more accurately than all prior work, unlike optimization approaches it does not suffer from local minima, and converges in just 6 iterations. 最適化アプローチとは異なり、LVDは局所最小化に悩まされず、わずか6回で収束する。 0.46
We attribute the better performance to the distributed per-vertex predictions and to the error feedback loop – the current vertex estimate is iteratively verified against the image evidence, a feature present in all optimization schemes but missing in learning-based methods for human shape estimation. 現在の頂点推定は、画像のエビデンスに対して反復的に検証され、全ての最適化スキームに存在するが、人間の形状推定のための学習に基づく手法に欠けている特徴である。 0.60
We demonstrate the usefulness of LVD for the tasks of 3D human shape estimation from images, and 3D scan registration(see Fig 1). 画像からの3次元人物形状推定および3次元スキャン登録作業におけるLVDの有用性を示す(図1)。 0.71
In both problems, we surpass existing approaches by a considerable margin. どちらの問題でも、既存のアプローチをかなりの差で上回ります。 0.49
Our key contributions can be summarized as follows: 私たちの重要な貢献は次のようにまとめることができる。 0.54
– A novel learning-based optimization where vertices descent towards the correct solution according to learned neural field predictions. 学習したニューラルネットワークの予測に従って、頂点が正しい解に向かって降下する、新しい学習ベースの最適化。
訳抜け防止モード: -新しい学習 - ベースの最適化 学習したニューラルネットワークの予測に従って 正しい解に向かって降下する
0.69
This optimization is fast, does not require gradients and hand-crafted objective functions, and is not sensitive to initialization. この最適化は高速で、勾配や手作りの目的関数を必要とせず、初期化に敏感ではない。 0.70
– We empirically show that our approach achieves state-of-the-art results in –我々のアプローチが最先端の結果をもたらすことを実証的に示す。 0.62
the task of human shape recovery from a single image. 一つの画像から人間の形状を復元する作業。 0.82
– The LVD formulation can be readily adapted to the problem of 3D scan fitting. -LVDの定式化は3Dスキャンフィッティングの問題に容易に適応できる。 0.71
We also demonstrate state-of-the-art results on fitting 3D scans of full bodies and hands. また,全身と手の3Dスキャンについて,最先端の結果も示す。 0.58
– By analysing the variance of the learned vertex gradient in local neighborhoods we can extract uncertainty information about the reconstructed shape. – 局所的に学習した頂点勾配のばらつきを分析することにより, 復元された形状に関する不確実性情報を抽出することができる。
訳抜け防止モード: -地域住民における学習頂点勾配のばらつきの分析 復元された形について 不確実な情報を抽出できる。
0.76
This might be useful for subsequent downstream applications that require confidence measures on the estimated body shape. これは、推定された体形に関する信頼度測定を必要とする下流アプリケーションに有用かもしれない。 0.62
2 Related work 2.1 Parametric models for 3D body reconstruction 2関連作品 2.1 3次元身体再構成のためのパラメトリックモデル 0.65
The de-facto approach for reconstructing human shape and pose is by estimating the parameters of a low-rank generative model [44,56,81,67], being SMPL [44] or SMPL-X [56] the most well known. 人体形状とポーズを復元するためのデファクトアプローチは、SMPL [44] または SMPL-X [56] として、低ランクな生成モデル[44,56,81,67] のパラメータを推定することで知られている。 0.73
We next describe the approaches to perform model fitting from images. 次に、画像からモデルフィッティングを行うアプローチについて述べる。 0.71
Optimization. Early approaches on human pose and shape estimation from images used optimization-based approaches to estimate the model parameters from 2D image evidence. 最適化。 2次元画像証拠からモデルパラメータを推定するために最適化に基づくアプローチを用いた画像からの人間のポーズと形状推定の初期のアプローチ。 0.72
Sigal et al [75] did it so for the SCAPE [5] human Sigal et al [75]はSCAPE [5]人間のためにそれをした 0.81
英語(論文から抽出)日本語訳スコア
4 Corona et al model, and assuming 2D input silhouettes. 4 コロナなど モデルと2D入力シルエットを仮定する。 0.51
Guan et al [27], combined silhouettes with manually annotated 2D skeletons. Guan et al [27], シルエットと手書きの2D骨格を組み合わせる。 0.69
More recently, the standard optimization relies on 2D skeletons [11,56,77], estimated by off-the-shelf and robust deep methods [14]. 最近では、標準最適化は2dスケルトン [11,56,77] に依存しており、オフザ・シェルフ法とロバストな深層法 [14] で推定されている。 0.48
This is typically accompanied by additional pose priors to ensure anthropomorphism of the retrieved pose [11,56]. これは通常、回収されたポーズ[11,56]の擬人化を保証するために追加のポーズ前を伴っている。 0.50
Subsequent works have devised approaches to obtain better initialization from image cues [37], more efficient optimization pipelines [77], focused on multiple people [23] or extended the approach to multi-view scenarios [42,23]. その後の研究では、イメージキュー [37]、より効率的な最適化パイプライン [77]、複数の人 [23]、あるいはマルチビューシナリオ [42,23] へのアプローチを拡張したアプローチを考案した。 0.77
While optimization-based approaches do not require images with 3D annotation for training and achieve relatively good registration of details to 2D observations, they tend to suffer from the non-convexity of the problem, being slow and falling into local minima unless provided with a good initialization and accurate 2D observations. 最適化に基づくアプローチでは、トレーニングのために3Dアノテーションの画像を必要とせず、2D観察に詳細を比較的よく登録するが、それらは問題の非凸性に悩まされ、優れた初期化と正確な2D観察が得られない限り、局所的なミニマに陥る傾向にある。 0.68
In this work, we overcome both these limitations. この作業では、これらの制限を克服します。 0.56
From one side we only use as input a very coarse person segmentation and image features obtained with standard encoder-decoder architectures. 片面からは、非常に粗い人物分割と標準エンコーダデコーダアーキテクチャで得られる画像特徴を入力としてのみ使用する。 0.71
And from the other side, the learned vertex displacements help the optimizer to converge to good solutions (empirically observed) in just a few iterations. 一方、学習された頂点変位は、最適化者が数イテレーションで良い解(経験的に観察される)に収束するのに役立ちます。 0.63
On the downside, our approach requires 3D training data, but as we will show in the experimental section, by using synthetic data we manage to generalize well to real images. 欠点として,本手法では3次元トレーニングデータが必要であるが,実験セクションで示すように,合成データを用いることで,実画像によく対応できる。 0.80
Regression. Most current approaches on human body shape recovery consider the direct regression of the shape and pose parameters of the SMPL model [28,6,36,38,57,25,39, 68,73,74]. 回帰。 現在の人体形状復元のアプローチでは、smplモデル [28,6,36,38,57,25,39, 68,73,74] の形状とポーズパラメータの直接回帰を考える。 0.41
As in optimization-based methods, different sorts of 2D image evidence have been used, e g keypoints [41], keypoints plus silhouette [58] or part segmentation maps [52]. 最適化に基づく手法と同様に、キーポイント [41]、キーポイントプラスシルエット [58]、部分セグメンテーションマップ [52] など、様々な種類の2d画像証拠が使用されている。 0.75
More recently, SMPL parameters have been regressed directly from entire images encoded by pre-trained deep networks (typically ResNet-like) [34,28,57,18,25]. SMPLパラメータは、トレーニング済みのディープネットワーク(典型的にはResNetライクな) [34,28,57,18,25] でエンコードされたイメージ全体から直接回帰されている。 0.52
However, regressing the parameters of a low-dimensional parametric model from a single view is always a highly ambiguous problem. しかし、単一の視点から低次元パラメトリックモデルのパラメータを回帰することは、常に非常に曖昧な問題である。 0.76
This is alleviated by recent works that explore the idea of using hybrid approaches combining optimization and regression [83,33,37,77,49,43]. これは最適化と回帰を組み合わせたハイブリッドアプローチ(83,33,37,77,49,43]を使用するというアイデアを探求する最近の研究によって緩和されている。
訳抜け防止モード: これは最近の作品が 最適化と回帰(83,33,37,77,49,43)を組み合わせたハイブリッドアプローチを使うアイデアを探ろう。
0.60
Very recently, [39] proposed regressing a distribution of parameters instead of having a regression into a single pose and shape representation. 非常に最近、[39]は1つのポーズと形状表現に回帰する代わりにパラメータの分布を回帰することを提案した。 0.73
In any event, all these works still rely on representing the body shape through low-rank models. いずれにせよ、これらの作品はすべて、低ランクモデルによる身体形状の表現に依存している。
訳抜け防止モード: いずれにしても これらの作品は全て 体型を低位モデルで表現する。
0.70
We argue that other shape representations are necessary to model body shape details. 体形の詳細をモデル化するためには、他の形状表現が必要であると論じる。 0.64
This was already discussed in [38], which suggested representing the body shape using all vertices of a template mesh. これは[38]ではすでに議論されており、テンプレートメッシュのすべての頂点を使って体形を表現することを推奨している。 0.61
We will follow the same spirit, although in a completely different learning paradigm. 全く異なる学習パラダイムではありますが、私たちは同じ精神に従います。 0.65
Specifically [38] proposed regressing all points of the body mesh in one single regression pass of a Graph Convolutional Network. 具体的に[38]は、グラフ畳み込みネットワークの単一の回帰パスでボディメッシュのすべてのポイントをレグレッシブすることを提案した。
訳抜け防止モード: 具体的に[38]提案する グラフ畳み込みネットワークの単一の回帰パスでボディメッシュのすべてのポイントをレグレッションする。
0.72
This led to noisy outputs that required from post-processing step to smooth the results by fitting the SMPL model. これにより、SMPLモデルに適合させることで結果を円滑にするために、後処理ステップから要求されるノイズの多い出力につながった。 0.55
Instead, we propose a novel optimization framework, that leverages on a pre-learned prior that maps image evidence to vertex displacements towards the body shape. その代わりに,画像証拠を物体形状への頂点変位にマッピングする事前学習前処理を活用した,新しい最適化フレームワークを提案する。 0.77
We will show that despite its simplicity, this approach surpasses by considerable margins all prior work, and provides smooth while accurate meshes without any post-processing. そのシンプルさにもかかわらず、このアプローチは以前の作業のかなりのマージンを超え、後処理なしでスムーズで正確なメッシュを提供する。 0.61
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
5 2.2 Fitting scans 5 2.2 フィッティングスキャン 0.56
Classical ICP-based has been used for fitting SMPL with no direct correspondences [60,12,13,62,31,24] or for registration of garments [61,10,40]. ICPをベースとした古典的なICPは、直接対応のないSMPL(60,12,13,62,31, 24)や衣服(61,10,40)の登録に用いられる。 0.46
Integrating additional knowledge such as pre-computed 3D joints, facial key points [2] and body part segmentation [8] significantly improves the registration quality but these pre-processing steps are prone to error and often require human supervision. 予め計算された3d関節、顔のキーポイント[2]、体部セグメンテーション[8]などの追加知識の統合は、登録品質を大幅に改善するが、これらの前処理ステップはエラーを起こしやすく、しばしば人間の監督を必要とする。
訳抜け防止モード: 予め計算した3次元関節, 顔のキーポイント [2] 身体部分分割[8]は登録品質を著しく向上させる しかし、これらの前処理ステップはエラーを起こしやすく、しばしば人間の監督を必要とする。
0.73
Other works initialize correspondences with a learned regressor [78,64,26] and later optimize model parameters. 他の作品は学習されたレグレッサ [78,64,26] との対応を初期化し、後にモデルパラメータを最適化する。 0.54
Like us, more recent methods also propose predicting correspondences [9] or body part labels [8] extracted via learnt features. 以上と同様に,より最近の手法では,学習特徴から抽出した対応 [9] や体部ラベル [8] の予測も提案されている。
訳抜け防止モード: 私たちのように 最近の手法では 学習特徴から抽出した対応 [9 ] または体部ラベル [8 ] を予測する。
0.76
Even though we do not explicitly propose a 3D registration method, LVD is a general algorithm that predicts parametric models. 3次元登録法を明示的に提案するわけではないが、LVDはパラメトリックモデルを予測する一般的なアルゴリズムである。 0.74
By optimizing these predictions without further correspondences, we surpass other methods that are explicitly designed for 3D registration. さらなる対応なしにこれらの予測を最適化することにより、3D登録用に明示的に設計された他の手法を克服する。 0.59
2.3 Neural fields for parametric models 2.3 パラメトリックモデルのためのニューラルフィールド 0.63
Neural fields [20,65,53,19] have recently shown impressive results in modeling 3D human shape [15,85,22,53,21,51]. ニューラルフィールド[20,65,53,19]は最近、3d人間の形状 [15,85,22,53,21,51]をモデル化した素晴らしい結果を示している。 0.43
However, despite providing the level of detail that parametric models do not have, they are computationally expensive and difficult to integrate within pose-driven applications given the lack of correspondences. しかしながら、パラメトリックモデルが持たない詳細レベルを提供するにもかかわらず、それらは計算コストが高く、対応がないためポーズ駆動のアプリケーションでは統合が困難である。 0.70
Recent works have already explored possible integrations between implicit and parametric representations for the tasks of 3D reconstruction [32], clothed human modeling [71,45,46], or human rendering [59]. 近年の研究では, 3次元再構成[32], 衣服付き人体モデリング[71,45,46], 人体レンダリング[59]の課題に対して, 暗黙的・パラメトリック的表現の統合の可能性を探っている。
訳抜け防止モード: 近年では3次元再構成作業における暗黙的表現とパラメトリック表現の統合が検討されている[32]。 布の人間のモデリング [71,45,46 ] または人間のレンダリング [59 ]
0.72
We will build upon this direction by framing our method in the pipeline of neural fields. 私たちはこの方向を、ニューラルネットワークのパイプラインでメソッドをフレーミングすることで構築します。 0.62
Concretely, we will take the vertices of an unfit mesh and use image features to learn their optimal displacement towards the optimal body shape. 具体的には、不適切なメッシュの頂点を取り、画像特徴を用いて最適なボディ形状への最適な変位を学習する。 0.74
3 Method We next present our new paradigm for fitting 3D human models. 3方法 次に,人間の3次元モデルに適合する新しいパラダイムを提案する。 0.74
For clarity, we will describe our approach in the problem of 3D human shape reconstruction from a single image. より明確にするために,1枚の画像から3次元の人体形状を復元する手法について述べる。 0.69
Yet, the formulation we present here is generalizable to the problem of fitting 3D scans, as we shall demonstrate in the experimental section. しかし,本論文の定式化は,実験セクションで示すように,3次元スキャンの適合問題に一般化可能である。 0.70
3.1 Problem formulation Given a single-view image I ∈ RH×W of a person our goal is to reconstruct his/her full body. 3.1 問題定式化 個人の単一視点像 I ∈ RH×W が与えられると、その目的は全身を再構築することである。 0.69
We represent the body using a 3D mesh V ∈ RN×3 with N vertices. N頂点を持つ3次元メッシュ V ∈ RN×3 を用いて体を表現する。 0.77
For convenience (and compatibility with SMPL-based downstream algorithms) the mesh topology will correspond to that of the SMPL model, with N = 6.890 vertices and triangular connectivity (13.776 faces). 利便性(およびSMPLベースのダウンストリームアルゴリズムとの互換性)のために、メッシュトポロジーは、N = 6.890 頂点と三角接続(13.776面)を持つSMPLモデルに対応する。 0.75
It is important to note that our method operates on the vertices directly and hence it is applicable to other models (such as hands [67]). 本手法は頂点上で直接動作するため,他のモデル(手[67]など)にも適用可能である点に注意が必要である。 0.81
In particular, we do not use the low dimensional pose and shape parameterizations of such models. 特に、そのようなモデルの低次元のポーズや形状のパラメータ化は使用しない。 0.76
英語(論文から抽出)日本語訳スコア
6 Corona et al Fig. 2. 6 コロナなど 図2。 0.45
LVD is a novel framework for estimation of 3D human body where local features drive the direction of vertices iteratively by predicting a per-vertex neural field. lvdは、局所的な特徴が頂点の方向を反復的に駆動する3次元人体の推定のための新しいフレームワークである。 0.62
At each step t, g takes an input vertex vt i with its corresponding local features, to predict the direction towards its groundtruth position. 各ステップ t において、g は入力頂点 vt i を対応する局所特徴として取り、その基底位置への方向を予測する。 0.72
The surface initialization here follows a T-Posed body, but the proposed approach is very robust to initialization. ここでの表面初期化はT-Posed体に従うが、提案手法は初期化に対して非常に堅牢である。 0.60
3.2 LVD: Learning Vertex Descent 3.2 LVD: Vertex Descentの学習 0.80
We solve the model fitting problem via an iterative optimization approach with learned vertex descent. 学習頂点降下を用いた反復最適化手法により,モデル適合性問題を解く。 0.80
Concretely, let vt i be the i-th vertex of the estimated mesh V at iteration t. 具体的には、vt i を反復 t における推定メッシュ V の i 番目の頂点とする。 0.67
Let us also denote by F ∈ RH(cid:48)×W (cid:48)×F the pixel aligned image features, and by fi the F -dimensional vector of the specific features extracted at the projection of vt We learn a function g(·) that given the current 3D vertex position, and the image features at its 2D projection, predicts the magnitude and direction of steepest descent towards the ground truth location of the i-th vertex, which we shall denote as ˆvi. また、F ∈ RH(cid:48)×W (cid:48)×F の画素整列像特徴と、vt の射影で抽出された特定の特徴の F-次元ベクトルと、現在の3次元頂点位置を与えられた函数 g(·) と、その2次元射影における像特徴と、i-番目の頂点の接地真理位置への急勾配の最大度と方向を予測し、このベクトルを .vi と表現する。 0.78
Formally: i on the image plane. 正式には 画像の飛行機に乗ってる 0.61
g : (vt i, fi) (cid:55)→ ∆vi . g : (vt) i, fi) (cid:55)→ svi 。 0.59
(1) where ∆vi ∈ R3 is a vector with origin at vt i and endpoint at the ground truth ˆvi. (1) ここで svi ∈ r3 は vt i の原点と基底真理の終点を持つベクトルである。 0.59
In practice, during training, we will apply a component-wise clipping to the ground truth displacements with threshold λ. 実際には、トレーニング中に、しきい値λの基底真理変位に対して、コンポーネントワイズクリッピングを適用する。 0.64
This stabilizes convergence during the first training iterations. これにより、最初のトレーニングイテレーションで収束が安定化する。 0.59
We learn the vertex descent function g(·) using a joint ensemble of pervertex neural field networks, which we describe in Sect. 直交ニューラルネットワークの結合アンサンブルを用いて頂点降下関数 g(·) を学習し,これをセクターで記述する。 0.60
3.3. Once this mapping is learned, we can define the following update rule for our learned optimization: 3.3. このマッピングが学習されると、学習した最適化のために以下の更新ルールを定義することができます。 0.49
vt+1 i = vt vt+1 i = vt 0.42
i + ∆vi . i + svi である。 0.49
(2) The reconstruction problem then entails iterating over Eq 2 until the convergence of ∆vi. (2) 再構成問題は、シュヴィの収束まで Eq 2 上で反復する。 0.53
Fig 2 depicts an overview of the approach. 図2はアプローチの概要を描いている。 0.73
Note that in essence we are replacing the standard gradient descent rule with a learned update that is locally computed at every vertex. 本質的には、標準勾配降下規則を、各頂点で局所的に計算される学習された更新に置き換えている。 0.73
As we will empirically demonstrate in the results section, despite its simplicity, the proposed approach allows for fast and remarkable convergence rates, typically requiring only 4 to 6 iterations no matter how the mesh vertices are initialized. 結果セクションで実証的に示すように、その単純さにもかかわらず、提案手法は高速で顕著な収束率を可能にし、メッシュの頂点がどのように初期化されるにせよ、通常4~6回しか必要としない。 0.63
Surface initializationImageV olumetric input3D Feature maps2D Feature mapsMulti-scale feature representationsLocal RepresentationsOptim ized body shape surface initialization imagevolumetric input3d feature maps2d feature maps multi-scale feature representationslocal representationsoptim ized body shape 0.34
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
7 Uncertainty estimation. An interesting outcome of our approach is that it allows estimating the uncertainty of the estimated 3D shape, which could be useful in downstream applications that require a confidence measure. 7 不確実性推定。 提案手法の興味深い結果は,推定された3次元形状の不確かさを推定できる点である。
訳抜け防止モード: 7 不確実性推定。 提案手法の興味深い結果は, 推定した3次元形状の不確かさを推定できることである。 信頼度測定を必要とする下流のアプリケーションに役立ちます
0.61
For estimating the uncertainty of a vertex vi, we compute the variance of the points after perturbing them and letting the network converge. 頂点viの不確かさを推定するために、それらを摂動した後の点の分散を計算し、ネットワークを収束させる。 0.62
After this process, we obtain the displacements ∆xi j between perturbed points xj and the mesh vertex vi predicted initially. この過程の後、最初に予測された摂動点xjとメッシュ頂点viとの間での変位 sxi j を得る。 0.73
We then define the uncertainty of vi as: 次にviの不確かさを次のように定義する。 0.47
U (vi) = std({xj + ∆xi u (vi) = std({xj + ]xi である。 0.73
j}M j=1) . j>mj=1)であった。 0.52
(3) In Figs. (3) フィギュア。 0.34
1 and 4 we represent the uncertainty of the meshes in dark blue. 1および4は、暗青色のメッシュの不確実性を表す。 0.72
Note that the most uncertain regions are typically localized on the feet and hands. 最も不確定な地域は通常、足と手で局所化されている。 0.68
3.3 Network architecture 3.3ネットワークアーキテクチャ 0.71
The LVD architecture has two main modules, one that is responsible of extracting local image features and the other of learning the optimal vertices’ displacement. LVDアーキテクチャには2つの主要なモジュールがあり、1つは局所像の特徴を抽出し、もう1つは最適な頂点の変位を学習する。 0.67
Local features. Following recent approaches [69,70], the local features F are learned with an encoder-decoder Hourglass network trained from scratch. ローカル機能。 最近のアプローチ [69,70] に従って、ローカル機能fは、スクラッチからトレーニングされたエンコーダ-デコーダ砂時計ネットワークで学習される。 0.64
Given a vertex vt i ) and the input image I, these features are estimated as: 頂点 vt i ) と入力画像 i が与えられると、これらの特徴は次のようになる。 0.68
i = (xt i, yt i = (xt) I, yt 0.43
i , zt f : (I, π(vt 私はZT f : (i, π(vt)) 0.47
i), zt zt (複数形 zts) 0.46
i ) (cid:55)→ fi , i ) (cid:55)→ fi , 0.48
(4) where π(v) is a weak perspective projection of v onto the image plane. (4) ここで π(v) は像平面上の v の弱い視点射影である。 0.60
We condition f (·) with the depth zt i of the vertex to generate depth-aware local features. 頂点の深さ zt i で f (·) を条件に深度認識局所特徴を生成する。
訳抜け防止モード: We condition f ( · ) with the depth zt i of the vertex 深度を意識したローカル機能を生成する。
0.86
A key component of LVD is Predicting vertex displacements based on local features, which have been shown to produce better geometric detail, even from small training sets [69,70,16]. lvd の重要な要素は局所的特徴に基づく頂点変位の予測であり、小さなトレーニングセット [69,70,16] からでもより幾何学的詳細が得られた。 0.69
Indeed, this is one of our major differences compared to previous learning approaches for human shape estimation relying on parametric body models. 実際、これは、パラメトリックなボディモデルに依存する人間の形状推定に対する以前の学習アプローチとの主な違いの1つです。 0.75
These methods learn a mapping from a full image to global shape parameters (two disjoint spaces), which is hard to learn, and therefore they are unable to capture the local details. これらの手法は全画像から大域的な形状パラメータ(2つの不連続な空間)へのマッピングを学習するが、これは学習が難しいため、局所的な詳細を捉えることができない。 0.73
This results in poor image overlap between the recovered shape and the image as can be seen in Fig 1. これにより、復元された形状と図1に示すように画像の重なりが悪くなる。 0.67
Network field. ネットワークフィールド。 0.75
In order to implement the function g(·) in Eq 1 we follow recent neural field approaches [48,54] and use a simple 3-layer MLP that takes as input the current estimate of each vertex vt i plus its local F -dimensional local feature fi and predicts the displacement ∆vi. eq 1 で関数 g(·) を実装するために、最近のニューラルネットワークアプローチ [48,54] に従い、各頂点 vt i とその局所 f-次元局所特徴 fi の現在の推定値を入力とし、変位 svi を予測する単純な3層 mlp を用いる。 0.79
3.4 Training LVD 3.4 トレーニングlvd 0.62
Training the proposed model entails learning the parameters of the functions f (·) and g(·) described above. 提案されたモデルのトレーニングには、上述の関数 f (·) と g(·) のパラメータの学習が伴う。 0.83
For this purpose, we will leverage a synthetic dataset of images of people under different clothing and body poses paired with the corresponding SMPL 3D body registrations. この目的のために、異なる服装や身体ポーズの人々の画像の合成データセットを、対応するsmpl 3dボディ登録と組み合わせて活用する。 0.77
We will describe this dataset in the experimental section. このデータセットを実験のセクションで説明します。 0.78
英語(論文から抽出)日本語訳スコア
8 Corona et al In order to train the network, we proceed as follows: Let us assume we are given a ground truth body mesh ˆV = [ˆv1, . . . , ˆvN ] and its corresponding image I. 8 コロナなど ネットワークをトレーニングするために、次のように進める: 基底真理ボディメッシュ (ground truth body mesh) が与えられ、それに対応するイメージ i が与えられることを仮定する。 0.44
We then randomly sample M 3D points X = {x1, . . . , xM}, using a combination of points uniformly sampled in space and points distributed near the surface. 次に、空間内で一様にサンプリングされた点と表面近傍に分布する点の組み合わせを用いて、ランダムに M 3D 点 X = {x1, . . . , xM} をサンプリングする。
訳抜け防止モード: 次にランダムに M 3D 点 X = { x1, ..., xM } 空間で一様にサンプリングされた点と表面近傍に分布した点の組み合わせを用いて。
0.79
Each of these points, jointly with the input image I is fed to the LVD model which predicts its displacement w.r.t. all ground truth SMPL vertices. これらの点はそれぞれ、入力画像Iと共にLVDモデルに供給され、すべての基底真理SMPL頂点の変位を予測する。 0.71
Then, the loss associated with xi is computed as: そして、xiに関する損失を次のように計算する。 0.75
N(cid:88) L(xi) = N(第88回) L(xi) = 0.53
(cid:107)∆xj (cid:107)『xj』 0.51
i − ˆ∆xj i − xj である。 0.54
i(cid:107)1 , i(cid:107)1 , 0.46
(5) j=1 i is the predicted displacement between xi and ˆvj and ˆ∆xj (5) j=1 i は xi と vj と xj の間のずれの予測です 0.47
where ∆xj i the ground truth displacement. xj i では真理の転位について述べる。 0.50
(cid:107)·(cid:107)1 is the L1 distance. (cid:107)·(cid:107)1はL1距離である。 0.75
Note that by doing this, we are teaching our network to predict the displacement of any point in space to all vertices of the mesh. これを行うことで、メッシュのすべての頂点に対する空間内の任意の点の変位を予測するようにネットワークに教えています。 0.79
We found that this simple loss was sufficient to learn smooth but accurate body prediction. この単純な損失は、滑らかだが正確な身体予測を学ぶのに十分であることがわかった。 0.57
Remarkably, no additional regularization losses enforcing geometry consistency or anthropomorphism were required. 注目すべきは、幾何整合性や擬人化を強制する追加の正規化損失は不要である。 0.44
The reader is referred to the Supplemental Material for additional implemen- 読者は補足資料として追加的に紹介される- 0.76
tation and training details. 3.5 Application to 3D scan registration テートと訓練の詳細 3.5 3dスキャン登録への適用 0.66
The pipeline we have just described can be readily applied to the problem of fitting the SMPL mesh to 3D scans of clothed people or fitting the MANO model [67] to 3D scans of hands. 先ほど述べたパイプラインは、布を塗った人の3dスキャンにsmplメッシュを適合させるか、manoモデル[67]を手の3dスキャンに適合させる問題に容易に適用できます。 0.65
The only difference will be in the feature extractor f (·) of Eq 4, which will have to account for volumetric features. 唯一の違いは、Eq 4 の特徴抽出器 f (·) にある。
訳抜け防止モード: 唯一の違いは eq 4 の特徴抽出器 f ( · ) にある。 ボリュームの特徴を考慮しなくてはなりません。
0.75
That is, if X is a 3D voxelized input scan, the feature extractor for a vertex vi will be defined as: つまり、x が3次元ボクセル化入力スキャンであれば、頂点 vi の特徴抽出器は次のようになる。 0.73
f 3D : (X, vi) (cid:55)→ fi , f 3D : (X, vi) (cid:55)→ fi , 0.49
(6) where again, fi will be an F -dimensional feature vector. (6) ここでも fi は f-次元特徴ベクトルとなる。 0.58
For the MANO model, the number of vertices of the mesh is N = 778. MANOモデルでは、メッシュの頂点の数は N = 778 である。 0.74
In the experimental section, we will show the adaptability of LVD to this scan registration problem. 本稿では,このスキャン登録問題に対するLVDの適用性を示す。 0.55
4 Connection to classical model based fitting 4 古典的モデルベースフィッティングへの接続 0.84
Beyond its good performance, we find the connection of LVD to classical optimization based methods interesting, and understanding its relationship can be important for future improvements and extensions of LVD. 優れた性能の他に、古典的最適化に基づく手法とLVDの結びつきが興味深いことや、LVDの今後の改良や拡張のためにはLVDの関係を理解することが重要である。
訳抜け防止モード: パフォーマンスだけでなく 古典的な最適化に基づく手法へのLVDの接続は興味深い。 その関係を理解し 将来のLVDの改善と拡張には重要な可能性がある。
0.68
Optimization methods for human shape recovery optimize model parameters to match image features such as correspondences [27,11,56], silhouettes [75,76]. 形状復元のための最適化手法は、対応 [27,11,56]、シルエット [75,76]などの画像特徴にマッチするモデルパラメータを最適化する。
訳抜け防止モード: 形状復元モデルパラメータの最適化手法 対応[27,11,56],シルエット[75,76]などの画像特徴と一致させる。
0.83
See [63] for an in-depth discussion of optimization-based model based fitting. 最適化に基づくモデルベースのフィッティングの詳細な議論については[63]を参照してください。 0.56
Optimization based. These methods minimize a scalar error e(p) ∈ R with respect to human body parameters p. 最適化ベース。 これらの方法は、人体パラメータ p に関するスカラー誤差 e(p) ∈ R を最小化する。 0.78
Such scalar error is commonly obtained from a sum of squares error e = e(p)T e(p). そのようなスカラー誤差は一般に二乗誤差 e = e(p)t e(p) の和から得られる。 0.77
The error vector e ∈ RdN contains 誤差ベクトル e ∈ RdN は 0.64
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
9 Input ResNet [29] Sengupta [74] 9 入力 ResNet [29] Sengupta [74] 0.53
LVD Input ResNet [29] Sengupta [74] LVD 入力 ResNet [29] Sengupta [74] 0.53
LVD Fig. 3. Comparison of LVD to body shape estimation baselines. LVD 図3。 LVDと体型推定基準値の比較 0.52
As a first baseline, we train a ResNet [29] (using the same data as for LVD) to predict the SMPL parameters. 最初のベースラインとして、SMPLパラメータを予測するためにResNet[29](LVDと同じデータを使って)をトレーニングします。 0.76
This approach fails to generalize to novel poses and shapes. このアプローチは、新しいポーズや形への一般化に失敗する。 0.55
We also compare LVD to Sengupta et al [74], which perform well on real images, even though the predicted shapes do not fit perfectly the silhouettes of the people. lvd と sengupta et al [74] を比較した。これは実際の画像でうまく機能するが、予測された形状は人々のシルエットに完全に合致しない。 0.66
See also quantitative results in Table 1. 表1の定量的な結果も参照。 0.76
the d dimensional residuals for the N vertices of a mesh, which typically correspond to measuring how well the projected i − th vertex in the mesh fits the image evidence (e.g, matching color of the rendered mesh vs image color). メッシュのN頂点のd次元残差は、通常、メッシュ内の射影されたi − th頂点が像のエビデンス(例えば、レンダリングされたメッシュの色と画像色)にどの程度収まるかを測定することに対応する。 0.81
To minimize e one can use gradient descent, Gauss-Newton or Levenberg-Marquadt (LM) optimizer to find a descent direction for human parameters p, but ultimately the direction is obtained from local image gradients as we will show. e を最小化するために、Gauss-Newton または Levenberg-Marquadt (LM) オプティマイザを用いて、人間のパラメータ p の降下方向を求めることができるが、最終的に示すように、その方向は局所的な勾配から得られる。
訳抜け防止モード: e を最小にするために、ガウス - ニュートン Levenberg - Marquadt (LM ) Optimizationr to find a descend direction for human parameters p。 しかし、最終的に方向は、私たちが示すように、局所的な画像勾配から得られます。
0.72
Without loss of generality, we can look at the individual residual incurred by one vertex ei ∈ Rd, although bear in mind that an optimization routine considers all residuals simultaneously (the final gradient will be the sum of individual residual gradients or step directions in the case of LM type optimizers). 一般性を欠くことなく、1つの頂点 ei ∈ Rd によって引き起こされる個々の残差を見ることができるが、最適化ルーチンがすべての残差を同時に考えることを念頭に置いている(最後の勾配は、LM型最適化器の場合の個々の残差勾配またはステップ方向の和である)。 0.72
The gradient of a single residual can be computed as 1つの残差の勾配を計算できる 0.63
∇pei = ∂(eT i ei) ∂p 太平= ・(eT i ei) ・p 0.33
= 2 ∂vi ∂p = 2 ∂vi ∂p 0.39
ei (7) (cid:20) ∂ei 英 (7) (cid:20)∂ei 0.44
∂vi (cid:21)T ∂vi (cid:21)T 0.41
where the matrices that play a critical role in finding a good direction are the error itself ei, and ∂ei which is the Jacobian matrix of the i-th residual with ∂vi respect to the i-th vertex (the Jacobian of the vertex w.r.t. to parameters p is computed from the body model and typically helps to restrict (small) vertex displacements to remain within the space of human shapes). 良い方向を見つける上で重要な役割を果たす行列はエラー自身 ei であり、第 i 番目の頂点に関して ∂vi を持つ i 番目の残差のヤコビ行列 ∂ei である(パラメータ p に対する頂点 w.r.t のヤコビ行列は体モデルから計算され、典型的には(小さな)頂点の変位を人間の形状の空間に残すために制限する)。 0.80
When residuals are based on pixel differences (common for rendering losses and silhouette terms) obtaining ∂ei requires computing image gradients via finite differences. 残差がピクセル差(レンダリング損失とシルエット項の共用)に基づいている場合、∂eiを得るには有限差による画像勾配を計算する必要がある。 0.69
Such ∂vi classical gradient is only meaningful once we are close to the solution. そのような ∂vi 古典的勾配は、解に近づくとのみ意味を持つ。 0.60
Learned Vertex Descent. 専門はVertex Descent。 0.66
In stark contrast, our neural fields compute a learned vertex direction, with image features that have a much higher receptive field than a classical gradient. 対照的に、我々の神経場は学習された頂点方向を計算し、画像の特徴は古典的な勾配よりもずっと高い受容場を持つ。 0.69
This explains why our method converges much faster and more reliably than classical approaches. これは、この手法が古典的アプローチよりも高速かつ確実に収束する理由を説明します。 0.59
To continue this analogy, our この類似性を維持するために 0.58
英語(論文から抽出)日本語訳スコア
10 Corona et al Input FrankMocap [68] 10 コロナなど 入力 FrankMocap [68] 0.39
ExPose [18] Expose [18] 0.27
ProHMR [39] ProHMR[39] 0.42
LVD Fig. 4. SMPL reconstruction on images on-the-wild. LVD 図4。 画像上におけるsmpl再構成 0.56
For each method, we show the reconstruction in posed and canonical space. 各手法について,ポーズ空間と正準空間の再構成について述べる。 0.58
While previous works focus on pose estimation, they are prone to generate always an average body shape. 以前の研究はポーズ推定に焦点を当てていたが、常に平均的な体型を生成する傾向がある。 0.52
In contrast, LVD generates a much richer distribution of body shapes as shown in the right-most column. 対照的に、LVDは右の列に示すように、よりリッチな体形分布を生成する。 0.59
network learns to minimize the following objective error (for a single vertex) ネットワークは(単一の頂点に対して)次の目的のエラーを最小化するために学習する 0.67
eLV D i i eLV D i 私は 0.48
i ei = (vi − vgt = eT whose vertex gradient ∇vi eLV D points directly to the ground truth vertex vgt i . i ei = (vi − vgt = et) であり、その頂点勾配 (v elv d) は基底真理頂点 vgt i を直接指す。 0.72
In fact, our LVD is trained to learn the step size as well as the direction. 実際、私たちのLVDはステップサイズと方向を学ぶために訓練されています。 0.75
What is even more remarkable, and surprising to us, is that we do not need a body model to constraint the vertices. さらに注目すべき、私たちにとって驚きなのは、頂点を制約するボディモデルを必要としないことです。 0.74
That is, during optimization, we do not need to compute ∂vi ∂p , and project the directions to the space of valid human shapes. すなわち、最適化中は ∂vi ∂p を計算し、有効な人間の形状の空間への方向を投影する必要はない。 0.75
Since LVD has been learned from real human shapes, it automatically learns a prior, making the model very simple and fast during inference. LVDは実際の人間の形から学習されているので、モデルが推論中に非常にシンプルで高速になるように、事前に学習する。 0.64
i )T (v − vgt i ) i)T (v − vgt i ) 0.41
(8) 5 Experiments We next evaluate the performance of LVD in the tasks of 3D human reconstruction from a single image and 3D registration. (8) 5 実験 次に、単一画像からの3次元再構成と3次元登録のタスクにおけるLVDの性能を評価する。 0.65
Additionally, we will provide empirical insights about the convergence of the algorithm and its shape expressiveness compared to parametric models. さらに、パラメトリックモデルと比較して、アルゴリズムの収束とその形状表現性に関する経験的洞察を提供する。 0.82
Data. We use the RenderPeople, AXYZ and Twindom datasets [66,7,79], which consist of 767 3D scans. データ。 renderpeople, axyz, twindomデータセット [66,7,79]は、767の3dスキャンで構成されています。 0.71
We first obtain SMPL registrations and manually an- まずSMPL登録と手動 an- を取得する。 0.63
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
11 1. Single-view SMPL estimation 11 1.シングルビューsmpl推定 0.64
baseTable lines [56,37,68,18,39,74] in the BUFF Dataset [84]. buffデータセット[84]のbasetable行 [56,37,68,18,39,74]。 0.47
The experiments take into account front, side and back views from the original scans and show that LVD outperforms all baselines in all scenarios and metrics except for back views. 実験では、元のスキャンからフロント、サイド、バックビューを考慮し、LVDがバックビューを除くすべてのシナリオとメトリクスにおいて、すべてのベースラインを上回っていることを示す。 0.64
*We also report the results of PIFu, although note that this is a model-free approach in contrast to ours and the rest of the baselines, which recover the SMPL model. ※pifuの結果も報告していますが、smplモデルを復元するベースラインや他のベースラインとは対照的に、これはモデルフリーなアプローチである点に注意してください。
訳抜け防止モード: ※PIFuの結果も報告しますが、これはモデルであり、当社とは対照的に自由なアプローチです。 そして残りのベースラインはSMPLモデルを復元します。
0.74
from LVD and 90◦ 0◦ LVDから 90◦ 0◦ 0.43
90◦ 180◦ Viewing angle: 90◦ 180◦ 視角: 0.45
180◦ 270◦ Vertex-to-Vertex 180◦ 270◦ Vertex-to-Vertex 0.33
V2V V2S 270◦ Avg. V2V V2S 270。 0.33
Avg. 0◦ 36,71 40,55 72,57 39,23 35,16 39,04 71,38 38,51 47,18 46,05 *PIFu [69] 41,30 77,03 61,40 92,50 40,00 75,68 60,27 91,30 68,07 66,81 SMPL-X [56] 31,96 42,10 53,93 44,54 30,68 40,87 52,86 43,30 43,13 41,92 SPIN [37] FrankMocap [68] 27,24 43,33 47,36 42,36 25,70 41,93 46,15 40,85 40,07 38,66 26,07 40,83 54,42 44,34 24,61 39,60 53,23 43,16 41,41 40,15 ExPose [18] 39,55 49,26 55,42 46,03 38,42 48,18 54,41 44,88 47,56 46,47 ProHMR [39] 27,70 51,10 40,11 53,28 25,96 49,77 38,80 52,03 43,05 41,64 Sengupta [74] LVD 25,44 38,24 54,55 38,10 23,94 37,05 53,55 36,94 39,08 37,87 avgだ 0◦ 36,71 40,55 72,57 39,23 35,16 39,04 71,38 38,51 47,18 46,05 *PIFu [69] 41,30 77,03 61,40 92,50 40,00 75,68 60,27 91,30 68,07 66,81 SMPL-X [56] 31,96 42,10 53,93 44,54 30,68 40,87 52,86 43,30 43,13 41,92 SPIN [37] FrankMocap [68] 27,24 43,33 47,36 42,36 25,70 41,93 46,15 40,85 40,07 38,66 26,07 40,83 54,42 44,34 24,61 39,60 53,23 43,16 41,41 40,15 ExPose [18] 39,55 49,26 55,42 46,03 38,42 48,18 54,41 44,88 47,56 46,47 ProHMR [39] 27,70 51,10 40,11 53,28 25,96 49,77 38,80 52,03 43,05 41,64 Sengupta [74] LVD 25,44 38,24 54,55 38,10 23,94 37,05 53,55 36,94 39,08 37,87 0.41
Vertex-to-Surface notate the correct fits. 頂点から表面へ 正しい合図を知らせなさい。 0.33
Then, we perform an aggressive data augmentation by synthetically changing body pose, shape and rendering several images per mesh from different views and illuminations. 次に,物体の姿勢を合成的に変化させ,異なるビューや照明からメッシュ毎に複数の画像を描画することで,攻撃的なデータ拡張を行う。
訳抜け防止モード: そして 積極的なデータ拡張を行い 合成的に変化するボディポーズ、形状、メッシュ毎に異なるビューと照度から複数のイメージをレンダリングする。
0.73
By doing, this we collect a synthetic dataset of ∼ 600k images which we use for training and validation. これによって、トレーニングと検証に使用する、600k以上のイメージの合成データセットを収集します。 0.68
Test will be performed on real datasets. テストは実際のデータセットで実行される。 0.71
Please see Suppl. Supplを見てください。 0.68
Mat. for more details about the construction of this dataset. マット。 このデータセットの構築の詳細については 0.72
5.1 3D Body shape estimation from a single image 5.1 単体画像からの3次元物体形状推定 0.79
We evaluate LVD in the task of body shape estimation and compare it against Sengupta et al [74], which uses 2D edges and joints to extract features that are used to predict SMPL parameters. 体型推定タスクにおけるlvdを評価し,2次元エッジと関節を用いてsmplパラメータの予測に用いられる特徴を抽出するsengupta et al [74]と比較した。 0.74
We also compare it against a model that estimates SMPL pose and shape parameters given an input image. また,入力画像からSMPLのポーズと形状パラメータを推定するモデルと比較した。 0.78
We use a pre-trained ResNet-18 [29] that is trained on the exact same data as LVD. トレーニング済みのResNet-18[29]をLVDとまったく同じデータでトレーニングしています。 0.68
This approach fails to capture the variability of body shapes and does not generalize well to new poses. このアプローチは体形の変化を捉えることができず、新しいポーズにうまく一般化しない。 0.61
We attribute this to the limited amount of data (only a few hundred 3D scans), with every image being a training data point, while in LVD every sampled 3D point counts as one training example. これを限られた量のデータ(数百の3dスキャンのみ)に分類し、各画像がトレーニングデータポイントであり、lvdではサンプルされた3dポイントが1つのトレーニングサンプルとしてカウントされます。
訳抜け防止モード: これは限られた量のデータ(わずか数百の3Dスキャン)によるものです。 すべての画像が訓練データポイントで LVDでは、サンプル化された3Dポイントは1つのトレーニング例としてカウントされる。
0.76
Figure 3 shows qualitative results on in-the-wild images. 図3は、ワイルド画像の質的な結果を示している。 0.49
The predictions of LVD also capture the body shape better than those of Sengupta et al [74] and project better to the silhouette of the input person. また, LVDの予測は, Sengupta et al [74] よりも体形が良く, 入力者のシルエットに映し出される。 0.61
Even though our primary goal is not pose estimation, we also compare LVD against several recent state-of-the-art model-based methods [56,37,68,18,39] on the BUFF dataset, which has 9612 textured scans of clothed people. 主目的はポーズ推定ではなく,9612人のテクスチャスキャンを施したBUFFデータセット上で,最近の最先端のモデルベース手法 [56,37,68,18,39] と比較した。 0.72
We have uniformly sampled 480 scans and rendered images at four camera views. 480のスキャンと4つのカメラビューで画像をレンダリングしました。 0.63
Table 1 summarizes the results in terms of the Vertex-to-Vertex (V2V) and Vertex-toSurface (V2S) distances. 表1は、Vertex-to-Vertex(V2V )とVertex-to Surface(V2S)の距離で結果を要約する。 0.64
The table also reports the results of PIFu [69], although we should take this merely as a reference, as this is a model-free approach, while the rest of the methods in the Table are model-based. 表はまたPIFu [69]の結果も報告しますが、これはモデルなしのアプローチであり、テーブル内の他のメソッドはモデルベースであるので、単に参照として扱うべきです。 0.79
Figure 4 shows qualitative results on in-the-wild images. 図4は、ワイルド画像の質的な結果を示しています。 0.47
With this experiment, we want to show that pre- この実験で、私たちはその前例を示したいと思います。 0.58
英語(論文から抽出)日本語訳スコア
12 Corona et al 70 12 コロナなど 70 0.40
60 50 40 r o r r e 60 50 40 r o r e である。 0.51
n o i t c u r t s n o c e R S 2 V n o i t c u r t s n o c e R S 2 V 0.42
SMPLify ProHMR SMPLify プロムル 0.45
SPIN Sengupta FrankMocap SPIN 扇合板 フランクモキャップ 0.52
ExPose 0.2 0.4 エキスポス 0.2 0.4 0.42
0.6 0.8 Shape σ 0.6 0.8 形状 σ 0.52
LVD 1 1.2 1.4 LVD 1 1.2 1.4 0.36
Fig. 5. Left: Variability of predicted body shape parameters (x-axis) with respect to vertex error (y-axis, lower is better) for works that fit SMPL to images. 図5。 左:SMPLと画像に適合する作業に対して、頂点誤差(y軸,下方の方がよい)に対する予測体形パラメータ(x軸)のばらつき。 0.72
Previous approaches have mostly focused on the task of pose estimation. 従来のアプローチは主にポーズ推定のタスクに重点を置いてきた。 0.56
LVD, instead, aims to represent a more realistic distribution of predicted body shapes. LVDは、予測された体形をよりリアルに分布させることを目的としている。 0.56
Right: Convergence analysis of the proposed optimization, showing the distance from each SMPL vertex to the groundtruth scan during optimization, averaged for 200 examples of the BUFF dataset. 右: 最適化中の各smpl頂点から接地スキャンまでの距離を示す最適化提案の収束解析は、バフデータセットの200例に対して平均された。 0.81
The first iteration also includes the time to obtain the local representations used during the rest of the optimization. 最初のイテレーションには、残りの最適化で使われるローカル表現を取得する時間も含まれている。 0.68
Each line color encodes a different body region and the black line shows the average error of all vertices. 各ラインカラーは異なるボディ領域を符号化し、黒線は全ての頂点の平均誤差を示す。 0.81
vious works on pose and shape estimation tend to predict average body shapes. ポーズと形状の推定は 平均的な体形を予測する傾向があります 0.80
In contrast, our approach is able to reconstruct high-fidelity bodies for different morphotypes. 対照的に,本手法は異なる形態の高忠実度体を再構成することができる。 0.53
It should be noted that our primary goal is to estimate accurate body shape, and our training data does not include extreme poses. 私たちの主な目標は正確な体形を推定することであり、トレーニングデータは極端なポーズを含んでいないことに注意すべきです。 0.70
Generalizing LVD to complex poses will most likely require self-supervised frameworks with in the wild 2D images like current SOTA [34,39,18,37] , but this is out of the scope of this paper, and leave it for future work. LVDを複雑なポーズに一般化するには、現在のSOTA[34,39,18,37]のような野生の2Dイメージで、自己管理のフレームワークが必要になる可能性が高い。 0.61
Finally, it is worth to point that some of the baselines [56,68,37,18] require 2D keypoint predictions, for which we use the publicly available code of OpenPose [14]. 最後に、ベースライン(56,68,37,18)のいくつかは、2Dキーポイントの予測を必要としており、OpenPose [14]の公開コードを使用します。 0.64
In contrast, LVD relies on coarse image segmentations to mask the background out because we trained with 3D scans without background. 対照的に、LVDは、背景のない3Dスキャンでトレーニングしたので、背景を隠蔽するために粗いイメージセグメンテーションに依存しています。
訳抜け防止モード: 対照的にLVDは粗い画像分割に依存している 背景を隠して 背景のない3Dスキャンで 訓練したからです
0.71
In any event, we noticed that our model is not particularly sensitive to the quality of input masks, and can still generate plausible body shapes with noisy masks (see Supp. Mat.). いずれにしても、私たちのモデルが特に入力マスクの品質に敏感ではなく、ノイズの多いマスクで可能なボディ形状を生成できることに気付きました(supp.mat.を参照)。 0.70
5.2 Shape expressiveness and convergence analysis 5.2 形状表現性と収束解析 0.77
We further study the ability of all methods to represent different body shapes. さらに,様々な身体形状を表現できる手法について検討した。 0.72
For this, we obtain the SMPL shape for our model and pose estimation baselines in Tab. そこで本研究では,本モデルにおけるsmpl形状とポーズ推定ベースラインをタブで取得する。 0.71
1 and fit the SMPL model with 300 shape components. SMPLモデルには300の形状部品が組み込まれている。 0.68
We then calculate the standard deviation σ2 of the second PCA component, responsible for the shape diversity. 次に、第2のPCA成分の標準偏差σ2を計算し、形状の多様性に寄与する。 0.71
Fig 5 (left) depicts the graph of shape σ2 vs. V2S error. 図5(左)は σ2 対 V2S 誤差のグラフを描いている。 0.78
It is clearly shown that LVD stands out in its capacity to represent different shapes. LVDは異なる形状を表す能力で際立っていることが明らかに示されている。 0.78
In contrast, most previous approaches have a much lower capacity to recover different body shapes, with a σ2 value 3 times smaller than ours. 対照的に、従来のほとんどのアプローチは、我々の3倍のσ2値で、異なる体形を復元する能力がはるかに低い。 0.72
We also perform an empirical convergence analysis of LVD. また,LVDの実証収束解析を行った。 0.64
Fig 5 (right) plots the average V2V error (in mm) vs time, computed when performing shape fig 5 (右) は平均 v2v 誤差 (mm) と時間 (形状) をプロットする。 0.80
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
13 Input scan LoopReg [9] 13 入力スキャン LoopReg [9] 0.67
IP-Net [8] IP-Net [8] 0.42
Ours Fig. 6. SMPL and SMPL+D registration of 3D scans from LVD in comparison to LoopReg and IP-Net. 我々の 図6。 SMPLとSMPL+DはLoopRegとIP-Netと比較してLVDから3Dスキャンを登録する。 0.60
Table 2. Evaluation on SMPL and SMPL+D registration on the RenderPeople Dataset [66]. 表2。 RenderPeople Dataset [66]におけるSMPLおよびSMPL+D登録の評価 0.78
The initial SMPL estimation from LVD is already very competitive against baselines [9,8]. LVDからの最初のSMPL推定は、すでにベースライン [9,8] と非常に競合しています。 0.56
By using these predictions as initialization for SMPL/SMPL+D registration, we obtain ∼ 28.4% and ∼ 37.7% relative improvements with respect to the second-best method[8] in joint and SMPL vertex distances respectively. これらの予測をSMPL/SMPL+D登録の初期化として使用することにより、関節およびSMPL頂点距離における第2ベスト法[8]に対する28.4%と37.7%の相対的な改善が得られる。 0.68
Forward pass SMPL Registration 前方通過 smpl登録 0.67
SMPL+D Registration LVD SMPL+D登録 LVD 0.56
No corresp. LoopReg [9] IP-Net [8] LVD No corresp. コレスプなし。 LoopReg [9] IP-Net [8] LVD No corresp。 0.49
LoopReg [9] IP-Net [8] LVD LoopReg [9] IP-Net [8] LVD 0.49
SMPL error Joint [cm] Vertex [cm] SMPLエラー 関節[cm]頂点[cm] 0.59
Recons. to Scan Recons スキャン 0.35
V2V [mm] V2S [mm] V2V[mm]V2S[mm] 0.40
Scan to Recons. スキャンして偵察しろ 0.47
V2V [mm] V2S [mm] V2V[mm]V2S[mm] 0.40
5.89 6.27 8.98 6.61 5.89 6.27 8.98 6.61 0.25
12.6 9.31 16.6 21.3 12.6 9.31 16.6 21.3 0.25
12.51 10.53 12.51 10.53 0.25
16.92 13.75 16.92 13.75 0.25
9.33 12.2 10.35 8.19 9.33 12.2 10.35 8.19 0.25
14.27 10.49 14.27 10.49 0.25
3.60 5.03 8.84 6.61 3.60 5.03 8.84 6.61 0.25
2.53 3.00 8.16 5.87 2.53 3.00 8.16 5.87 0.25
12.25 8.45 12.25 8.45 0.25
11.31 7.43 11.31 7.43 0.25
16.6 21.3 1.45 0.72 16.6 21.3 1.45 0.72 0.25
8.53 4.22 9.32 12.3 8.53 4.22 9.32 12.3 0.25
1.43 0.69 8.01 3.47 1.43 0.69 8.01 3.47 0.25
3.63 5.20 1.21 0.53 3.63 5.20 1.21 0.53 0.25
7.22 2.78 2.60 3.24 7.22 2.78 2.60 3.24 0.25
1.14 0.47 6.88 2.44 1.14 0.47 6.88 2.44 0.25
inference for 200 different samples of the BUFF dataset. BUFFデータセットの200の異なるサンプルの推論。 0.81
Note that the optimization converges at a tenth of a second using a GTX 1080 Ti GPU. 最適化はgtx 1080 ti gpuを使って1秒の10分の1で収束する。 0.78
The total computation time is equivalent to 6 iterations of our algorithm. 計算時間は、我々のアルゴリズムの6イテレーションに相当する。 0.77
The color-coded 3D mesh on the side of Fig 5 (right) shows in which parts of the body the algorithm suffers the most. Fig 5(右)の側面にあるカラーコードされた3Dメッシュは、アルゴリズムが最も苦しむ身体のどの部分かを示している。 0.75
These areas are concentrated on the arms. これらの領域は腕に集中している。 0.67
Other regions that hardly become occluded, such as torso or head have the lowest error. 胴体や頭部などの閉塞がほとんどない他の領域は、誤りが最も少ない。 0.61
The average vertex error is represented with a thicker black line. 平均頂点誤差はより厚い黒線で表される。 0.64
Finally, we measure the sensitiveness of the convergence to different initializations of the body mesh. 最後に,体メッシュの異なる初期化に対する収束の感度を測定した。 0.78
We uniformly sampled 1K different initializations and analized the deviation of the converged reconstructions. 1Kの異なる初期化を均一にサンプリングし, 収束再構成の偏差を解析した。 0.66
We obtain a standard deviation of the SMPL surface vertices of only σ = 1.2mm across all reconstructions. すべての再構成でσ = 1.2mmのSMPL曲面頂点の標準偏差が得られる。 0.76
We credit this robustness to the dense supervision during training, which takes input points from a volume on the 3D space, as well as around the groundtruth body surface. この頑丈さは、トレーニング中に3次元空間上の体積から入力点を取り、また地上の体表面を囲むような、密集した監督に負う。 0.63
英語(論文から抽出)日本語訳スコア
14 Corona et al Fig. 7. 14 コロナなど 第7話。 0.39
Registration of MANO from input pointclouds. 入力点雲からのMANOの登録 0.70
We include more visuals and qualitative comparisons with baselines in Supplementary Material. 補足材料におけるベースラインとの視覚的比較と質的な比較を含む。 0.60
Table 3. Registration of MANO [67] from input 3D pointclouds of hands. 表3。 入力3dポイントクラウドからの mano [67] の登録 0.52
MANO Error Reconstruction to Scan Scan to Reconstruction 真野エラー スキャンスキャンの再構成と再構成 0.55
Method No corresp. コレスプをしない方法。 0.56
IP-Net [8] LVD IP-Net [8] LVD 0.44
Joint [cm] Vertex [cm] V2V [mm] V2S [mm] V2V [mm] V2S [mm] 関節[cm]頂点[cm]V2V[mm]V2S[mm]V2V[mm]V2S[mm] 0.41
6.49 1.44 .76 6.49 1.44 .76 0.52
7.05 1.73 .96 7.05 1.73 .96 0.26
5.31 3.29 2.73 5.31 3.29 2.73 0.24
5.28 3.23 2.65 5.28 3.23 2.65 0.24
8.06 6.17 5.62 8.06 6.17 5.62 0.24
6.40 4.08 3.33 6.40 4.08 3.33 0.24
5.3 3D Body Registration 5.3 3Dボディ登録 0.71
LVD is designed to be general and directly applicable for different tasks. LVDは汎用的で、様々なタスクに直接適用できるように設計されている。 0.53
We analyze the performance of LVD on the task of SMPL and SMPL+D registration on 3D point-clouds of humans. ヒトの3次元点雲におけるSMPLおよびSMPL+D登録タスクにおけるLVDの性能を解析した。 0.71
This task consists in initially estimating the SMPL mesh (which we do iterating our approach) and then running a second minimization of the Chamfer distance to fit SMPL and SMPL+D. このタスクは、まずSMPLメッシュ(アプローチを繰り返す)を推定し、次に、SMPLとSMPL+Dに適合するように、チャンファー距離の2番目の最小化を実行する。 0.65
The results are reported in Tab. 結果はtabで報告されている。 0.64
2, where we compare against LoopReg [9], IP-Net [8], and also against the simple baseline of registering SMPL with no correspondences starting from a T-Posed SMPL. 次に、LoopReg [9]、IP-Net [8]、およびT-Posed SMPLから始まる対応のないSMPLを登録する単純なベースラインと比較します。
訳抜け防止モード: LoopReg [9 ], IP - Net [8 ] と比較します。 また、T-Posed SMPLから始まる対応のないSMPLを登録する単純なベースラインにも反する。
0.69
Besides the V2V and V2S metrics (bi-directional), we also report the Joint error (predicted using SMPL’s joint regressor), and the distance between ground truth SMPL vertices and their correspondences in the registered mesh (Vertex distance). V2VとV2Sの測定値(双方向)に加えて、SMPLのジョイント回帰器を用いて予測されるジョイントエラーと、登録メッシュ内の真理SMPL頂点とそれらの対応距離(頂点距離)も報告する。 0.76
Note that again, LVD consistently outperforms the rest of the baselines. 繰り返しますが、LVDはベースラインの残りの部分よりも一貫して優れています。 0.49
This is also qualitatively shown in Fig 6. これは図6でも定性的に示されています。 0.59
5.4 3D Hand Registration 5.4 3Dハンド登録 0.69
The proposed approach is directly applicable to any statistical model, thus we also test it in the task of registration of MANO [67] from input point-clouds of hands, some of them incomplete. 提案手法は,任意の統計モデルに対して直接適用可能であるため,入力点群からMANO[67]を登録する作業において,その一部は不完全である。 0.75
For this experiment, we do not change the network hyperparameters and only update the number of vertices to predict (778 for MANO). この実験では、ネットワークのハイパーパラメータを変更しず、予測する頂点の数だけを更新する(manoでは778)。 0.75
We test this task on the MANO [67] dataset, where the approach also outperforms IP-Net[8], trained on the same data. 我々はこのタスクをMANO[67]データセットでテストし、同じデータでトレーニングされたIP-Net[8]をアプローチが上回ります。 0.72
Tab. 3 summarizes the performance of LVD and baselines, and qualitative examples are shown in Fig 7. タブ。 図7.3ではLVDとベースラインのパフォーマンスを要約し、定性的な例を図7に示す。 0.67
Note that LVD shows robustness even in situations with partial point clouds. LVD は部分点雲の状況においても堅牢性を示す。 0.71
GroundtruthGroundtru thGroundtruthGroundt ruthRegistrationRegi strationRegistration Registration グラウンドトルースGroundtruthGroundtru thGroundtruthRegistr ationRegistrationReg istrationRegistratio nRegistration 0.02
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
15 6 Conclusion We have introduced Learned Vertex Descent, a novel framework for human shape recovery where vertices are iteratively displaced towards the predicted body surface. 15 6 結論 我々は,人間の形状復元のための新しい枠組みであるラーニング・頂点降下を導入し,予測された物体表面に向かって頂点を反復的に変位させる。 0.56
The proposed method is lightweight, can work real-time and surpasses previous state-of-the-art in the tasks of body shape estimation from a single view or 3D scan registration, of both the full body and hands. 提案手法は軽量でリアルタイムに動作可能で,身体の形状推定や全身・両手の3次元スキャン登録といったタスクにおいて,従来の最先端技術を上回っている。 0.74
Being so simple, easy to use and effective, we believe LVD can be an important building block for future model-fitting methods. シンプルで使いやすく、効果的であることから、LVDは将来のモデル適合手法にとって重要なビルディングブロックになり得ると考えています。 0.53
Future work will focus in self-supervised training formulations of LVD for predicting body shape in difficult poses and scenes, and tackling multi-person scenes efficiently. 今後の研究は、困難なポーズやシーンにおける身体の形状を予測するためのLVDの自己教師型トレーニング定式化と、マルチパーソンシーンの効率向上に焦点を当てる。 0.49
Acknowledgements This work is partially funded by the Deutsche Forschungsgemeinscha ft (DFG, German Research Foundation) - 409792180 (Emmy Noether Programme, project: Real Virtual Humans), German Federal Ministry of Education and Research (BMBF): T¨ubingen AI Center, FKZ: 01IS18039A. この研究はドイツ研究財団 (dfg) - 409792180 (emmy noether program, project: real virtual humans)、ドイツ連邦教育研究省 (bmbf)、t subingen ai center、fkz: 01is18039aによって部分的に資金提供されている。 0.75
Gerard Pons-Moll is a member of the Machine Learning Cluster of Excellence, EXC number 2064/1 – Project number 390727645. gerard pons-moll氏は機械学習クラスタのメンバであり、2064/1 – プロジェクト番号390727645である。
訳抜け防止モード: Gerard Pons - MollはMachine Learning Cluster of Excellenceのメンバーである。 EXC番号2064/1 - プロジェクト番号390727645。
0.82
References 1. Alldieck, T., Magnor, M., Bhatnagar, B.L., Theobalt, C., Pons-Moll, G. 参考文献 オールディック, T., Magnor, M., Bhatnagar, B.L., Theobalt, C., Pons-Moll, G 0.73
: Learning to reconstruct people in clothing from a single RGB camera. 1台のRGBカメラから衣料品の再構築を学ぶ。 0.66
In: CVPR (jun 2019) CVPR(2019年5月) 0.62
2. Alldieck, T., Magnor, M., Bhatnagar, B.L., Theobalt, C., Pons-Moll, G. 2) オールディック, T., Magnor, M., Bhatnagar, B.L., Theobalt, C., Pons-Moll, G 0.91
: Learning to reconstruct people in clothing from a single rgb camera. 学習 1台のrgbカメラで 衣服の人を再構築する 0.57
In: CVPR (2019) CVPR(2019年) 0.59
3. Alldieck, T., Magnor, M., Xu, W., Theobalt, C., Pons-Moll, G. オールディック, T., Magnor, M., Xu, W., Theobalt, C., Pons-Moll, G 0.72
: Video based re- ビデオによるリニューアル 0.48
construction of 3d people models. 3次元人物モデルの構築。 0.70
In: CVPR (2018) CVPR(2018年) 0.40
4. Alldieck, T., Pons-Moll, G., Theobalt, C., Magnor, M. 4.オールディック, T., Pons-Moll, G., Theobalt, C., Magnor, M. 0.93
: Tex2shape: Detailed full : Tex2shape:詳細は全文 0.70
human body geometry from a single image. 1枚の画像から 人間の身体の幾何学 0.70
In: ICCV. IEEE (oct 2019) ICCV所属。 IEEE (2019 年頃) 0.69
5. Anguelov, D., Srinivasan, P., Koller, D., Thrun, S., Rodgers, J., Davis, J. 5. Anguelov, D., Srinivasan, P., Koller, D., Thrun, S., Rodgers, J., Davis, J. 0.42
: Scape: shape completion and animation of people. :スケープ 人の形状の完成とアニメーションです 0.65
SIGGRAPH (2005) SIGGRAPH (2005) 0.42
6. Arnab, A., Doersch, C., Zisserman, A. 6. Arnab, A., Doersch, C., Zisserman, A。 0.83
: Exploiting temporal context for 3d human 3次元人間の時間的文脈の展開 0.64
pose estimation in the wild. 野生でのポーズ推定。 0.56
In: CVPR. pp. 3395–3404 (2019) 略称はcvpr。 pp. 3395–3404 (2019) 0.43
7. Axyz dataset. 7. Axyz データセット。 0.89
https://secure.axyz- design.com/ https://secure.axyz- design.com/ 0.18
8. Bhatnagar, B.L., Sminchisescu, C., Theobalt, C., Pons-Moll, G. 8. Bhatnagar, B.L., Sminchisescu, C., Theobalt, C., Pons-Moll, G。 0.48
: Combining implicit function learning and parametric models for 3d human reconstruction. 3次元再構成のための暗黙的機能学習とパラメトリックモデルを組み合わせる。 0.72
In: ECCV. pp. 311–329. 略称:ECCV。 pp. 311-329。 0.61
Springer (2020) Springer (複数形 Springers) 0.31
9. Bhatnagar, B.L., Sminchisescu, C., Theobalt, C., Pons-Moll, G. 9.Bhatnagar,B.L.,Smi nchisescu,C.,Theobal t,C.,Pons-Moll,G。 0.45
: Loopreg: Selfsupervised learning of implicit surface correspondences, pose and shape for 3d human mesh registration. loopreg: 3次元メッシュ登録のための暗黙的表面対応, ポーズ, 形状の自己教師あり学習 0.73
NeurIPS 33 (2020) NeurIPS 33 (2020) 0.42
10. Bhatnagar, B.L., Tiwari, G., Theobalt, C., Pons-Moll, G. 10. Bhatnagar, B.L., Tiwari, G., Theobalt, C., Pons-Moll, G 0.49
: Multi-garment net: マルチガーメントネット 0.39
Learning to dress 3d people from images. 画像から3dの服装を学ぶこと。 0.75
In: ICCV (2019) ICCV(2019年) 0.60
11. Bogo, F., Kanazawa, A., Lassner, C., Gehler, P., Romero, J., Black, M.J.: Keep it smpl: Automatic estimation of 3d human pose and shape from a single image. 11. Bogo, F., Kanazawa, A., Lassner, C., Gehler, P., Romero, J., Black, M.J.: smpl: 1枚の画像から3Dのポーズと形状を自動的に推定する。 0.87
In: ECCV. Springer (2016) 略称:ECCV。 Springer (複数形 Springers) 0.46
12. Bogo, F., Romero, J., Loper, M., Black, M.J.: Faust: Dataset and evaluation for 12. Bogo, F., Romero, J., Loper, M., Black, M.J.: Faust: データセットと評価 0.92
3d mesh registration. In: CVPR. 3dメッシュ登録。 略称はcvpr。 0.61
pp. 3794–3801 (2014) pp. 3794-3801 (2014) 0.37
英語(論文から抽出)日本語訳スコア
16 Corona et al 13. Bogo, F., Romero, J., Pons-Moll, G., Black, M.J.: Dynamic faust: Registering hu- 16 コロナなど 13. Bogo, F., Romero, J., Pons-Moll, G., Black, M.J.: Dynamic faust: Registering hu- 0.41
man bodies in motion. In: CVPR. 動いている男の体。 略称はcvpr。 0.51
pp. 6233–6242 (2017) pp.6233-6242(2017) 0.25
14. Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y. 14. Cao, Z., Hidalgo, G., Simon, T., Wei, S.E., Sheikh, Y 0.44
: Openpose: realtime multiperson 2d pose estimation using part affinity fields. 開放: 部分親和性場を用いた実時間マルチパーソン2dポーズ推定 0.64
PAMI 43(1), 172–186 (2019) pami 43(1), 172–186 (2019) 0.43
15. Chen, X., Zheng, Y., Black, M.J., Hilliges, O., Geiger, A. 15. Chen, X., Zheng, Y., Black, M.J., Hilliges, O., Geiger, A. 0.46
: SNARF: Differentiable forward skinning for animating non-rigid neural implicit shapes. : SNARF:非剛性神経暗黙の形状をアニメーションするための識別可能な前方スキンニング。 0.60
In: ICCV (2021) 院:iccv(2021年) 0.71
16. Chibane, J., Pons-Moll, G. 16.千葉根j.ポンスモールg. 0.44
: Implicit feature networks for texture completion from テクスチャ補完のための暗黙的特徴ネットワーク 0.69
partial 3d data. In: ECCV. 部分3dデータ。 略称:ECCV。 0.74
pp. 717–725. pp. 717-725。 0.77
Springer (2020) Springer (複数形 Springers) 0.31
17. Chibane, J., Pons-Moll, G., et al : Neural unsigned distance fields for implicit 17. 千葉根, J., Pons-Moll, G. など : 暗黙性のためのニューラルアンサイン距離場 0.70
function learning. NeurIPS (2020) 関数学習。 NeurIPS (2020) 0.58
18. Choutas, V., Pavlakos, G., Bolkart, T., Tzionas, D., Black, M.J.: Monocular expressive body regression through body-driven attention. 18. Choutas, V., Pavlakos, G., Bolkart, T., Tzionas, D., Black, M.J. : 身体の注意による単分子的表現性身体の回帰 0.84
In: ECCV. pp. 20–40. 略称:ECCV。 20-40頁。 0.61
Springer (2020) Springer (複数形 Springers) 0.31
19. Corona, E., Hodan, T., Vo, M., Moreno-Noguer, F., Sweeney, C., Newcombe, R., Ma, L. 19. コロナ, E., Hodan, T., Vo, M., Moreno-Noguer, F., Sweeney, C., Newcombe, R., Ma, L.
訳抜け防止モード: 19. コロナ, E., Hodan, T., Vo M., Moreno - Noguer, F., Sweeney, C. Newcombe , R. , Ma , L。
0.84
: Lisa: Learning implicit shape and appearance of hands. リサ:暗示的な形と手の外観を学ぶこと。 0.70
arXiv preprint arXiv:2204.01695 (2022) arXiv preprint arXiv:2204.01695 (2022) 0.37
20. Corona, E., Pumarola, A., Alenya, G., Pons-Moll, G., Moreno-Noguer, F. 20.Corona, E., Pumarola, A., Alenya, G., Pons-Moll, G., Moreno-Noguer, F. 0.48
: Smplicit: Topology-aware generative model for clothed people. smplicit: 衣服の人々のためのトポロジー・アウェア・ジェネレーティブ・モデル。 0.64
In: CVPR. pp. 11875–11885 (2021) 略称はcvpr。 pp.11875-11885(2021年) 0.55
21. Deng, B., Lewis, J.P., Jeruzalski, T., Pons-Moll, G., Hinton, G., Norouzi, M., Tagliasacchi, A. 21. Deng, B., Lewis, J.P., Jeruzalski, T., Pons-Moll, G., Hinton, G., Norouzi, M., Tagliasacchi, A。 0.48
: Nasa neural articulated shape approximation. : Nasaニューラル関節形状近似 0.60
In: ECCV. pp. 612–628. 略称:ECCV。 pp. 612-628。 0.63
Springer (2020) Springer (複数形 Springers) 0.31
22. Deprelle, T., Groueix, T., Fisher, M., Kim, V.G., Russell, B.C., Aubry, M. 22. Deprelle, T., Groueix, T., Fisher, M., Kim, V.G., Russell, B.C., Aubry, M. 0.49
: Learning elementary structures for 3d shape generation and matching. 3次元形状生成とマッチングのための基本構造学習 0.73
arXiv preprint arXiv:1908.04725 (2019) arxivプレプリントarxiv:1908.04725 (2019) 0.39
23. Dong, Z., Song, J., Chen, X., Guo, C., Hilliges, O. 23. ドン, Z., Song, J., Chen, X., Guo, C., Hilliges, O. 0.81
: Shape-aware multi-person pose 形状認識多人数ポーズ 0.50
estimation from multi-view images. マルチビュー画像からの推定。 0.71
In: ICCV. pp. 11158–11168 (2021) ICCV所属。 pp. 11158-11168(2021年) 0.60
24. Dyke, R.M., Lai, Y.K., Rosin, P.L., Tam, G.K.: Non-rigid registration under anisotropic deformations. 24. ダイク, R.M., Lai, Y.K., Rosin, P.L., Tam, G.K.: 異方変形下での非剛性登録 0.72
Computer Aided Geometric Design 71, 142–156 (2019) コンピュータ支援幾何設計71,142-156(2019) 0.86
25. Georgakis, G., Li, R., Karanam, S., Chen, T., Koˇseck´a, J., Wu, Z. 25. ゲオルガキ, G., Li, R., Karanam, S., Chen, T., Kosseck ́a, J., Wu, Z 0.42
: Hierarchical kinematic human mesh recovery. 階層 キネマティックな人間のメッシュ回復。 0.42
In: ECCV. pp. 768–784. 略称:ECCV。 pp. 768-784。 0.69
Springer (2020) Springer (複数形 Springers) 0.31
26. Groueix, T., Fisher, M., Kim, V.G., Russell, B.C., Aubry, M. 26.Groueix, T., Fisher, M., Kim, V.G., Russell, B.C., Aubry, M. 0.49
: 3d-coded: 3d corre- 3d-coded:3d corre- 0.33
spondences by deep deformation. 深い変形によるスポンデンス 0.64
In: ECCV. pp. 230–246 (2018) 略称:ECCV。 pp. 230-246 (2018) 0.53
27. Guan, P., Weiss, A., Balan, A.O., Black, M.J.: Estimating human shape and pose 27.Guan, P., Weiss, A., Balan, A.O., Black, M.J.:人間の形とポーズの推定 0.82
from a single image. In: ICCV. 1枚の画像から。 ICCV所属。 0.58
IEEE (2009) IEEE(2009年) 0.87
28. Guler, R.A., Kokkinos, I. 28. Guler, R.A., Kokkinos, I 0.44
: Holopose: Holistic 3d human reconstruction in-the-wild. ホロポジション : ホロスティックな3次元人体再構築 0.65
In: CVPR (2019) CVPR(2019年) 0.59
29. He, K., Zhang, X., Ren, S., Sun, J. 29. He, K., Zhang, X., Ren, S., Sun, J. 0.43
: Deep residual learning for image recognition. 画像認識のための深い残差学習 0.66
In: CVPR (2016) CVPR(2016年) 0.57
30. He, T., Xu, Y., Saito, S., Soatto, S., Tung, T. 30. He, T., Xu, Y., Saito, S., Soatto, S., Tung, T。 0.41
: Arch++: Animation-ready clothed human reconstruction revisited. Arch++: アニメーション対応の人間の再構築。 0.70
In: Proceedings of the IEEE/CVF International Conference on Computer Vision. In: Proceedings of the IEEE/CVF International Conference on Computer Vision 0.43
pp. 11046–11056 (2021) 11046-11056(2021年) 0.64
31. Hirshberg, D.A., Loper, M., Rachlin, E., Black, M.J.: Coregistration: Simultaneous alignment and modeling of articulated 3d shape. 31. Hrshberg, D.A., Loper, M., Rachlin, E., Black, M.J.: Coregistration: 調音3次元形状の同時アライメントとモデリング 0.91
In: ECCV. pp. 242–255. 略称:ECCV。 pp. 242-255。 0.66
Springer (2012) Springer (複数形 Springers) 0.30
32. Huang, Z., Xu, Y., Lassner, C., Li, H., Tung, T. 32.Huang,Zu,Xu,Y.,La ssner,C.,Li,H.,Tung, T。 0.66
: Arch: Animatable reconstruction アーチ : アニマタブルな再構築 0.72
of clothed humans. In: CVPR (2020) 服を着た人間の CVPR(2020年) 0.63
33. Joo, H., Neverova, N., Vedaldi, A. 33.Joo, H., Neverova, N., Vedaldi, A。 0.40
: Exemplar fine-tuning for 3d human model fitting towards in-the-wild 3d human pose estimation. In-the-wild 3d Human pose Estimation に向けた3次元人体モデルの創成的微調整 0.64
arXiv preprint arXiv:2004.03686 (2020) arxivプレプリントarxiv:2004.03686 (2020) 0.42
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
17 34. Kanazawa, A., Black, M.J., Jacobs, D.W., Malik, J. 17 34. 金沢, A., Black, M.J., Jacobs, D.W., Malik, J. 0.67
: End-to-end recovery of human ヒトのエンドツーエンド回復 0.72
shape and pose. In: CVPR (2018) 形とポーズ。 CVPR(2018年) 0.52
35. Kingma, D.P., Ba, J. 35. Kingma, D.P., Ba, J. 0.50
: Adam: A method for stochastic optimization. adam: 確率最適化の一手法。 0.60
arXiv preprint arXiv プレプリント 0.83
arXiv:1412.6980 (2014) arXiv:1412.6980(2014 年) 0.54
36. Kocabas, M., Athanasiou, N., Black, M.J.: Vibe: Video inference for human body 36. コカバス, M., アタナシオウ, N., Black, M.J.: Vibe: Video Inference for human body 0.89
pose and shape estimation. In: CVPR. ポーズと形状推定。 略称はcvpr。 0.52
pp. 5253–5263 (2020) pp.5253-5263(2020) 0.39
37. Kolotouros, N., Pavlakos, G., Black, M.J., Daniilidis, K. 37. Kolotouros, N., Pavlakos, G., Black, M.J., Daniilidis, K。 0.47
: Learning to reconstruct 3d human pose and shape via model-fitting in the loop. 再構築の学習 ループ内のモデルフィッティングによる3d人間のポーズと形状。 0.71
In: ICCV (2019) ICCV(2019年) 0.60
38. Kolotouros, N., Pavlakos, G., Daniilidis, K. 38. Kolotouros, N., Pavlakos, G., Daniilidis, K。 0.42
: Convolutional mesh regression for 畳み込みメッシュ回帰 0.31
single-image human shape reconstruction. シングルイメージの人間の形状復元。 0.66
In: CVPR (2019) CVPR(2019年) 0.59
39. Kolotouros, N., Pavlakos, G., Jayaraman, D., Daniilidis, K. 39. Kolotouros, N., Pavlakos, G., Jayaraman, D., Daniilidis, K。 0.42
: Probabilistic modeling for human mesh recovery. 確率論的モデリング メッシュの回復に役立ちます 0.57
In: ICCV. pp. 11605–11614 (2021) ICCV所属。 巻11605-11614(2021年) 0.55
40. Lahner, Z., Cremers, D., Tung, T. 40. Lahner, Z., Cremers, D., Tung, T。 0.41
: Deepwrinkles: Accurate and realistic clothing 深いしわ:正確でリアルな衣服 0.70
modeling. In: ECCV (2018) モデリング。 イン:ECCV(2018) 0.61
41. Lassner, C., Romero, J., Kiefel, M., Bogo, F., Black, M.J., Gehler, P.V.: Unite the people: Closing the loop between 3d and 2d human representations. 41. Lassner, C., Romero, J., Kiefel, M., Bogo, F., Black, M.J., Gehler, P.V.: Unite the People: Closing the loop between 3d and 2d human representations。
訳抜け防止モード: 41. Lassner, C., Romero, J., Kiefel M., Bogo, F., Black, M.J., Gehler P.V. : 人々を統一する : 3dと2dの人間の表現の間のループを閉じる。
0.91
In: CVPR (2017) CVPR(2017年) 0.47
42. Li, Z., Oskarsson, M., Heyden, A. 42. Li, Z., Oskarsson, M., Heyden, A。 0.83
: 3d human pose and shape estimation through collaborative learning and multi-view model-fitting. 協調学習と多視点モデルフィッティングによる3次元人物ポーズと形状推定 0.73
In: WCACV. pp. 1888–1897 (2021) 略称はWCACV。 pp.1888-1897(2021年) 0.57
43. Lin, K., Wang, L., Liu, Z. 43. lin, k., wang, l., liu, z. 0.35
: End-to-end human pose and mesh reconstruction with エンドツーエンドの人間のポーズとメッシュ再構築 0.60
transformers. In: CVPR. 変圧器だ 略称はcvpr。 0.47
pp. 1954–1963 (2021) pp. 1954-1963(2021年) 0.74
44. Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., Black, M.J.: Smpl: A skinned 44.Loper, M., Mahmood, N., Romero, J., Pons-Moll, G., Black, M.J.: Smpl: A skinned 0.49
multi-person linear model. ToG (2015) 多人数線形モデル。 ToG (2015) 0.62
45. Ma, Q., Saito, S., Yang, J., Tang, S., Black, M.J.: Scale: Modeling clothed humans with a surface codec of articulated local elements. 45. Ma, Q., Saito, S., Yang, J., Tang, S., Black, M.J.: Scale: 局所元素表面コーデックのモデル化
訳抜け防止モード: 45 . Ma, Q., Saito, S., Yang, J., Tang, S., Black, M.J. : スケール 局所的要素の表層コーデックによる布地ヒトのモデリング
0.79
In: CVPR. pp. 16082–16093 (2021) 略称はcvpr。 p.16082-16093(2021年) 0.48
46. Ma, Q., Yang, J., Ranjan, A., Pujades, S., Pons-Moll, G., Tang, S., Black, M.J.: Learning to dress 3d people in generative clothing. 46. ma, q., yang, j., ranjan, a., pujades, s., pons-moll, g., tang, s., black, m.j.: learning to dress 3d people in generative clothing.
訳抜け防止モード: 46 . Ma, Q., Yang, J., Ranjan A., Pujades, S., Pons - Moll, G. 唐, S., Black, M.J. ジェネレーティブな服装で3Dの人々の服装を学ぶ。
0.89
In: CVPR. pp. 6469–6478 (2020) 略称はcvpr。 pp. 6469-6478 (2020) 0.37
47. Ma, Q., Yang, J., Tang, S., Black, M.J.: The power of points for modeling humans 47. Ma, Q., Yang, J., Tang, S., Black, M.J.:人間をモデル化する点の力 0.91
in clothing. In: ICCV. 服に ICCV所属。 0.47
pp. 10974–10984 (2021) 巻10974-10984(2021年) 0.66
48. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A. 48. Mescheder, L., Oechsle, M., Niemeyer, M., Nowozin, S., Geiger, A. 0.43
: Occupancy networks: Learning 3d reconstruction in function space. 居所 : 居所 ネットワーク: 関数空間で3D再構成を学ぶ。 0.50
In: CVPR (2019) CVPR(2019年) 0.59
49. Moon, G., Lee, K.M.: I2l-meshnet: Image-to-lixel prediction network for accurate 3d human pose and mesh estimation from a single rgb image. 49. Moon, G., Lee, K.M.: I2l-meshnet: 正確な3次元ポーズと単一のrgb画像からのメッシュ推定のための画像-リセル予測ネットワーク。 0.72
In: ECCV. pp. 752– 768. 略称:ECCV。 pp. 752-768。 0.69
Springer (2020) Springer (複数形 Springers) 0.31
50. Newell, A., Yang, K., Deng, J. 50. Newell, A., Yang, K., Deng, J. 0.42
: Stacked hourglass networks for human pose esti- 人間のポーズエスティのための積み重ね時計ネットワーク- 0.49
mation. In: ECCV. マティオン 略称:ECCV。 0.47
pp. 483–499. pp. 483-499。 0.58
Springer (2016) Springer (複数形 Springers) 0.30
51. Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A. 51. Niemeyer, M., Mescheder, L., Oechsle, M., Geiger, A。 0.41
: Occupancy flow: 4d recon- : 占有フロー:4次元偵察- 0.63
struction by learning particle dynamics. 粒子動力学の学習による構造形成 0.67
In: CVPR. pp. 5379–5389 (2019) 略称はcvpr。 pp.5379-5389(2019) 0.37
52. Omran, M., Lassner, C., Pons-Moll, G., Gehler, P., Schiele, B. 52. Omran, M., Lassner, C., Pons-Moll, G., Gehler, P., Schiele, B。 0.46
: Neural body fitting: Unifying deep learning and model based human pose and shape estimation. ニューラルボディフィッティング:深層学習とモデルに基づく人間のポーズと形状推定を統一する。 0.84
In: 3DV. IEEE (2018) 背番号は3dv。 IEEE (2018) 0.39
53. Pan, J., Han, X., Chen, W., Tang, J., Jia, K. 53. pan, j., han, x., chen, w., tang, j., jia, k. 0.35
: Deep mesh reconstruction from single シングルメッシュからのディープメッシュ再構築 0.60
rgb images via topology modification networks. RGB画像 トポロジー修正ネットワークを通して 0.78
In: ICCV. pp. 9964–9973 (2019) ICCV所属。 9964-9973頁(2019年)。 0.48
54. Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S. 54. Park, J.J., Florence, P., Straub, J., Newcombe, R., Lovegrove, S. 0.46
: Deepsdf: Learning deepsdf: 学習 0.57
continuous signed distance functions for shape representation. 形状表現のための連続符号距離関数。 0.79
In: CVPR (2019) CVPR(2019年) 0.59
55. Patel, C., Liao, Z., Pons-Moll, G. 55. Patel, C., Liao, Z., Pons-Moll, G. 0.48
: Tailornet: Predicting clothing in 3d as a function タイラーネット:3次元の衣服を機能として予測する 0.68
of human pose, shape and garment style. 人間のポーズ、形、服装のスタイルです 0.73
In: CVPR. IEEE (jun 2020) 略称はcvpr。 IEEE(2020年5月) 0.59
英語(論文から抽出)日本語訳スコア
18 Corona et al 56. Pavlakos, G., Choutas, V., Ghorbani, N., Bolkart, T., Osman, A.A., Tzionas, D., Black, M.J.: Expressive body capture: 3d hands, face, and body from a single image. 18 コロナなど 56. Pavlakos, G., Choutas, V., Ghorbani, N., Bolkart, T., Osman, A.A., Tzionas, D., Black, M.J.: 表現的身体捕獲: 1枚の画像から手、顔、体を3Dで撮影する。 0.55
In: CVPR (2019) CVPR(2019年) 0.59
57. Pavlakos, G., Kolotouros, N., Daniilidis, K. 57. Pavlakos, G., Kolotouros, N., Daniilidis, K。 0.42
: Texturepose: Supervising human mesh テクスチャポーゼ:人間のメッシュを監督する 0.61
estimation with texture consistency. テクスチャの整合性による推定 0.63
In: ICCV. pp. 803–812 (2019) ICCV所属。 pp. 803-812 (2019) 0.43
58. Pavlakos, G., Zhu, L., Zhou, X., Daniilidis, K. 58. Pavlakos, G., Zhu, L., Zhou, X., Daniilidis, K. 0.42
: Learning to estimate 3d human 3次元人間を推定する学習 0.77
pose and shape from a single color image. 単一のカラーイメージからポーズと形状。 0.72
In: CVPR. pp. 459–468 (2018) 略称はcvpr。 pp. 459-468 (2018) 0.42
59. Peng, S., Zhang, Y., Xu, Y., Wang, Q., Shuai, Q., Bao, H., Zhou, X. 59. Peng, S., Zhang, Y., Xu, Y., Wang, Q., Shuai, Q., Bao, H., Zhou, X
訳抜け防止モード: 59. Peng, S., Zhang, Y., Xu, Y., Wang, Q., Shuai, Q., Bao, H. は、X。
0.80
: Neural body: Implicit neural representations with structured latent codes for novel view synthesis of dynamic humans. ニューラルボディ : 動的人間の新しいビュー合成のための構造化潜在符号を用いた入射神経表現 0.83
In: CVPR. pp. 9054–9063 (2021) 略称はcvpr。 pp.9054-9063(2021年) 0.48
60. Pishchulin, L., Wuhrer, S., Helten, T., Theobalt, C., Schiele, B. 60. Pishchulin, L., Wuhrer, S., Helten, T., Theobalt, C., Schiele, B. 0.43
: Building statistical shape spaces for 3d human modeling. 建築統計学 3次元人体モデリングのための形状空間 0.70
Pattern Recognition 67, 276–286 (2017) パターン認識67,276-286 (2017) 0.88
61. Pons-Moll, G., Pujades, S., Hu, S., Black, M. 61. Pons-Moll, G., Pujades, S., Hu, S., Black, M. 0.47
: ClothCap: Seamless 4D clothing 布帽子:シームレスな4d服 0.70
capture and retargeting. 捕獲と再ターゲティング。 0.56
SIGGRAPH 36(4) (2017) SIGGRAPH 36(4)(2017年) 0.77
62. Pons-Moll, G., Romero, J., Mahmood, N., Black, M.J.: Dyna: A model of dynamic 62. Pons-Moll, G., Romero, J., Mahmood, N., Black, M.J.: Dyna: 動的モデル 0.93
human shape in motion. ToG 34(4), 1–14 (2015) 人間の形が動きます tog 34(4), 1–14 (2015) 0.64
63. Pons-Moll, G., Rosenhahn, B. 63. Pons-Moll, G., Rosenhahn, B. 0.50
: Model-Based Pose Estimation, chap. モデルに基づくポーズ推定,chap。 0.66
9, pp. 139–170. 9, pp. 139-170。 0.83
Springer (2011) Springer (複数形 Springers) 0.31
64. Pons-Moll, G., Taylor, J., Shotton, J., Hertzmann, A., Fitzgibbon, A. 64. Pons-Moll, G., Taylor, J., Shotton, J., Hertzmann, A., Fitzgibbon, A. 0.46
: Metric re- gression forests for correspondence estimation. メートル法再考 対応推定のためのグレッション・フォレスト。 0.47
IJCV 113(3), 163–175 (2015) IJCV 113(3), 163–175 (2015) 0.46
65. Prokudin, S., Black, M.J., Romero, J. 65. Prokudin, S., Black, M.J., Romero, J. 0.48
: Smplpix: Neural avatars from 3d human 3次元人間の神経アバター : Smplpix 0.70
models. In: WCACV. モデル。 略称はWCACV。 0.59
pp. 1810–1819 (2021) pp.1810-1819(2021年) 0.62
66. Renderpeople dataset. 66. renderpeople データセット。 0.85
https://renderpeople .com/ https://renderpeople .com/ 0.26
67. Romero, J., Tzionas, D., Black, M.J.: Embodied hands: Modeling and capturing 67. Romero, J., Tzionas, D., Black, M.J.: Embodied Hand: Modeling and capture 0.48
hands and bodies together. ToG (2017) 手と体を一緒に ToG (2017) 0.61
68. Rong, Y., Shiratori, T., Joo, H. 68.Rong,Y.,Shiratori ,T.,Joo,H。 0.39
: Frankmocap: Fast monocular 3d hand and body motion capture by regression and integration. :frankmocap: 回帰と統合による高速モノクロ3dハンドと体の動きキャプチャー。 0.73
arXiv preprint arXiv:2008.08324 (2020) arXiv preprint arXiv:2008.08324 (2020) 0.37
69. Saito, S., Huang, Z., Natsume, R., Morishima, S., Kanazawa, A., Li, H. 69. 斉藤, S., 黄, Z., 夏目, R., 森島, S., 金沢, A., Li, H. 0.73
: Pifu: Pixel-aligned implicit function for high-resolution clothed human digitization. ピフ:高精細な人間のデジタル化のための暗黙的機能。 0.52
In: ICCV (2019) ICCV(2019年) 0.60
70. Saito, S., Simon, T., Saragih, J., Joo, H. 70. 斎藤, S., Simon, T., Saragih, J., Joo, H。 0.78
: Pifuhd: Multi-level pixel-aligned implicit : Pifuhd:マルチレベル画素アライメント暗黙 0.69
function for high-resolution 3d human digitization. 高分解能3次元デジタル化のための機能 0.54
In: CVPR (2020) CVPR(2020年) 0.62
71. Saito, S., Yang, J., Ma, Q., Black, M.J.: Scanimate: Weakly supervised learning of 71. 斎藤, S., Yang, J., Ma, Q., Black, M.J.: Scanimate: 弱教師付き学習 0.84
skinned clothed avatar networks. 皮を剥いたアバターネットワーク 0.48
In: CVPR. pp. 2886–2897 (2021) 略称はcvpr。 巻2886-2897(2021年) 0.49
72. Salimans, T., Kingma, D.P.: Weight normalization: A simple reparameterization to accelerate training of deep neural networks. 72. Salimans, T., Kingma, D.P.: Weight normalization: ディープニューラルネットワークのトレーニングを加速するための単純なパラメータ化。 0.81
In: Advances in neural information processing systems. in: 神経情報処理システムの進歩。 0.74
pp. 901–909 (2016) pp. 901-909 (2016) 0.39
73. Sengupta, A., Budvytis, I., Cipolla, R. 73. Sengupta, A., Budvytis, I., Cipolla, R. 0.42
: Synthetic training for accurate 3d human 正確な3次元人間の合成訓練 0.74
pose and shape estimation in the wild. 野生でのポーズと形状の推定 0.67
BMVC (2020) BMVC(2020年) 0.46
74. Sengupta, A., Budvytis, I., Cipolla, R. 74. sengupta, a., budvytis, i., cipolla, r. 0.39
: Hierarchical kinematic probability distributions for 3d human shape and pose estimation from images in the wild. 野生画像からの3次元形状とポーズ推定のための階層的運動確率分布 0.65
In: ICCV. pp. 11219–11229 (2021) ICCV所属。 巻11219-11229(2021年) 0.56
75. Sigal, L., Balan, A., Black, M. 75) Sigal, L., Balan, A., Black, M。 0.80
: Combined discriminative and generative articulated 識別音声と生成音声の組み合わせ 0.43
pose and non-rigid shape estimation. pose と non-rigid 形状推定。 0.76
NeurIPS 20, 1337–1344 (2007) neurips 20, 1337–1344 (2007年) 0.67
76. Sminchisescu, C., Triggs, B. 76. Sminchisescu, C., Triggs, B。 0.41
: Covariance scaled sampling for monocular 3d body 単眼3次元物体の共分散スケールサンプリング 0.68
tracking. In: CVPR. 追跡 略称はcvpr。 0.40
vol. 1, pp. vol.1。 1巻p。 0.47
I–I. IEEE (2001) I-I。 IEEE (2001) 0.48
77. Song, J., Chen, X., Hilliges, O. 77. song, j., chen, x., hilliges, o. 0.36
: Human body model fitting by learned gradient 学習勾配による人体モデル適合 0.58
descent. In: ECCV. 降下 略称:ECCV。 0.45
pp. 744–760. pp. 744-760。 0.78
Springer (2020) Springer (複数形 Springers) 0.31
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
19 78. Taylor, J., Shotton, J., Sharp, T., Fitzgibbon, A. 19 78.Taylor,J.,Shotton ,J.,Sharp,T.,Fitzgib bon,A。 0.58
: The vitruvian manifold: Inferring dense correspondences for one-shot human pose estimation. : vitruvian manifold: ワンショット人間のポーズ推定のための密対応を推測する。 0.71
In: CVPR. pp. 103– 110. 略称はcvpr。 pp. 103–110。 0.64
IEEE (2012) IEEE (2012) 0.43
79. Twindom dataset. 79.Twindom データセット。 0.76
https://web.twindom. com/ https://web.twindom. com/ 0.21
80. Wu, Y., He, K. 80. Wu, Y., He, K. 0.42
: Group normalization. In: ECCV. グループ正規化。 略称:ECCV。 0.60
pp. 3–19 (2018) pp. 3-19 (2018) 0.39
81. Xu, H., Bazavan, E.G., Zanfir, A., Freeman, W.T., Sukthankar, R., Sminchisescu, C. 81.Xu, H., Bazavan, E.G., Zanfir, A., Freeman, W.T., Sukthankar, R., Sminchisescu, C 0.46
: Ghum & ghuml: Generative 3d human shape and articulated pose models. ghum & ghuml: 生成的3次元人体形状と調音ポーズモデル。 0.75
In: CVPR. pp. 6184–6193 (2020) 略称はcvpr。 pp. 6184-6193 (2020) 0.39
82. Yang, L., Song, Q., Wang, Z., Hu, M., Liu, C., Xin, X., Jia, W., Xu, S. 82. yang, l., song, q., wang, z., hu, m., liu, c., xin, x., jia, w., xu, s.
訳抜け防止モード: 82、yang、l.、song、q.、wang。 z., hu, m., liu, c., xin, x. jia、w.、xu、s。
0.67
: Renovating parsing r-cnn for accurate multiple human parsing. リノベーション 正確な多重パースのためのr-cnnのパース。 0.36
In: ECCV (2020) イン:ECCV(2020) 0.77
83. Zanfir, A., Bazavan, E.G., Zanfir, M., Freeman, W.T., Sukthankar, R., Sminchisescu, C. 83.Zanfir, A., Bazavan, E.G., Zanfir, M., Freeman, W.T., Sukthankar, R., Sminchisescu, C. 0.48
: Neural descent for visual 3d human pose and shape. 視覚的3次元人間のポーズと形状に対する神経降下 0.73
In: CVPR. pp. 14484–14493 (2021) 略称はcvpr。 巻14484-14493(2021年) 0.53
84. Zhang, C., Pujades, S., Black, M.J., Pons-Moll, G. 84.Zhang, C., Pujades, S., Black, M.J., Pons-Moll, G 0.47
: Detailed, accurate, human shape estimation from clothed 3d scan sequences. 詳細・正確・人間 布製3Dスキャンシーケンスの形状推定。 0.64
In: CVPR (2017) CVPR(2017年) 0.47
85. Zheng, Z., Yu, T., Liu, Y., Dai, Q. 85. Z., Yu, T., Liu, Y., Dai, Q. 0.34
: Pamir: Parametric model-conditioned implicit パミール:パラメトリックモデル条件付暗黙 0.74
representation for image-based human reconstruction. 画像に基づくヒューマンリコンストラクションのための表現 0.59
PAMI (2021) PAMI(2021年) 0.83
英語(論文から抽出)日本語訳スコア
SUPPLEMENTARY MATERIAL Enric Corona1, Gerard Pons-Moll2,3, Guillem Aleny`a1, and 補足材料 Enric Corona1, Gerard Pons-Moll2,3, Guillem Aleny`a1, and 0.50
Francesc Moreno-Noguer1 フランチェスク・モレノ・ノゲール1号 0.40
1Institut de Rob`otica i Inform`atica Industrial, CSIC-UPC, Barcelona, Spain スペイン・バルセロナ, CSIC-UPC産業研究所 0.41
2University of T¨ubingen, Germany, 3Max Planck Institute for Informatics, Germany ドイツ・チュービンゲン大学, 3max planck institute for informatics, ドイツ 0.73
In this supplementary material, we provide a detailed description of the implementation details and the data augmentation we used. 本補足資料では,実装の詳細と使用するデータ拡張の詳細について述べる。 0.66
We also include more qualitative examples and a supplementary video which summarizes the method and the contributions of the paper. さらに,より質的な例と,論文の方法と貢献を要約した補足ビデオも紹介した。 0.71
1 Implementation details We next describe the main implementation details. 1 実施内容 次に実装の詳細を述べる。 0.45
The code will be made publicly available. コードは公開される予定だ。 0.65
The clipping factor for the learnt gradient is to 18% of the vertical size of the scan, which we normalize between −0.75 and 0.75. 学習勾配のクリッピング係数はスキャンの垂直サイズの18%であり、これは −0.75 から 0.75 の間で正規化される。 0.75
In our experiments, H = W = 256, f is a stacked hourglass network [50] trained from scratch with 4 stacks and batch normalization replaced with group normalization [80]. 我々の実験では、H = W = 256, f は4つのスタックでゼロから訓練し、バッチ正規化をグループ正規化 [80] に置き換えたスタックグラスネットワーク [50] である。 0.71
The feature embeddings have size 128× 128 with 256 channels each. 機能埋め込みのサイズは128×128で、それぞれ256チャンネルがある。 0.71
Therefore, query points have a feature size of F = 256 × 4 = 1024. したがって、クエリポイントはf = 256 × 4 = 1024という特徴サイズを持つ。 0.81
The MLP f is formed by 3 fully connected layers with Weight Normalization [72], and deeper architectures or positional encoding did not help to improve performance. mlp fは重量正規化[72]を伴う3つの完全連結層で形成されており、より深いアーキテクチャや位置符号化は性能向上に役立たなかった。 0.68
We attribute this to the fact that the MLP is already obtaining very rich representations from feature maps. 我々は、MLPが既に特徴写像から非常にリッチな表現を取得しているという事実に起因している。
訳抜け防止モード: 私たちはこれを事実とみなす。 MLPはすでにフィーチャーマップから非常にリッチな表現を得ています。
0.62
The networks are trained end-to-end with batch size 4, learning rate 0.001 during 500 epochs, and then with linear learning rate decay during 500 epochs more. ネットワークはバッチサイズ4でエンドツーエンドにトレーニングされ、500エポックの学習率は0.001となり、500エポックの線形学習率はさらに低下する。 0.65
We use Adam Optimizer [35] with β1 = 0.9 β2 = 0.999. 我々は、Adam Optimizer [35] を β1 = 0.9 β2 = 0.999 で使用します。 0.61
When considering point-clouds as input we train an IF-Net backbone[16] from scratch with the same training conditions and number of iterations. ポイントクラウドを入力として考えると、同じトレーニング条件とイテレーション数でIF-Netのバックボーン[16]をスクラッチからトレーニングします。 0.62
Implementation-wise f has an output dimension of N = 6890. 実装ワイド f は出力次元が N = 6890 である。 0.82
When estimating an SMPL shape, we input a surface of 6890 × 3 and obtain a prediction tensor with shape 6890× 6890× 3, from which we sample the diagonal to obtain per-vertex displacements (6890 × 3) and move each vertex in the correct direction. SMPL形状を推定すると,曲面6890×3を入力し,形状6890×6890×3の予測テンソルを得る。
訳抜け防止モード: smpl形状を推定すると、6890×3の表面を入力します。 そして、形状 6890× 6890× 3 の予測テンソルを得る。 それぞれの頂点を正しい方向に移動させます
0.52
For the task of registration of the MANO model [67], we instead predict 778 vertices. MANOモデル [67] の登録作業では, 代わりに 778 の頂点を推定する。 0.77
To compare LVD against other baselines, we used their available code. LVDを他のベースラインと比較するために、利用可能なコードを使用しました。 0.58
For SMPL-X, we fitted the SMPL model for better comparison with ours and previous works, using their most recent code (SMPLify-X) with the variational prior. SMPL-Xでは,最新のコード (SMPLify-X) と変分前のコードを用いて, SMPLモデルを用いて, より優れた比較を行った。 0.85
2 Data Augmentation for image data 2 画像データのためのデータ拡張 0.81
As mentioned in the main document, we use the RenderPeople, AXYZ and Twindom datasets [66,7,79], which consist of 767 3D scans. 本文で述べたように、767個の3DスキャンからなるRenderPeople、AXYZ、Twindomデータセット [66,7,79]を使用する。 0.77
We first obtain SMPL まずSMPLを得る 0.63
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
21 Fig. 1. Convergence plot of the proposed optimization, for voxel-based experiments in comparison to image-based reconstruction. 21 図1。 voxelに基づく実験のための最適化の収束プロットと画像による再構成との比較 0.48
In comparison with the reported results on image-based reconstruction (which also are shown in the main paper), volumetric reconstruction takes almost a second to converge with our settings. 画像に基づく再構成(本文にも記載されている)の報告結果と比較すると,容積再構成は設定に収束するのに約1秒を要する。 0.70
Experiments were run on a single GeForce GTX 1080 Ti GPU. 実験は1台のGeForce GTX 1080 Ti GPU上で行われた。 0.80
The black line represents the average of all vertex errors while the remaining colors show how the error is distributed among different body parts, e g . 黒線は全ての頂点誤差の平均を表し、残りの色は、エラーがどのように異なる身体部位に分散されているかを示している。 0.75
arms and feet accumulate the biggest error while torso or head generally are the most accurately reconstructed parts. 腕と足は最大の誤差を蓄積する 胴体や頭は 一般的に最も正確に再建された部分です 0.74
® Image Mask LVD ® 画像 マスク LVD 0.58
Image Mask LVD 画像 マスク LVD 0.63
Fig. 2. SMPL reconstruction on images in-the-wild, and the predicted foreground masks[82]. 図2。 SMPLによる地中画像の再構成と予測前景マスク[82] 0.66
Even with noisy segmentations, the predicted SMPL accurately represents the body shapes and poses of the target people. 騒々しいセグメンテーションであっても、予測されたSMPLは対象者の体形やポーズを正確に表現する。 0.64
英語(論文から抽出)日本語訳スコア
22 Corona et al Fig. 3. 22 コロナなど 図3。 0.45
More examples of body shapes estimated on images in-the-wild. 画像から推定した身体形状のより詳細な例。 0.67
registrations and manually annotate the correct fits, leaving 750 scans. 登録と手動で正しい適合を注釈し 750のスキャンを残します 0.80
Due to the reduced number of 3D scans, we augment each of them by changing its pose and body shape. 3Dスキャンの回数が減ったため、ポーズや体型を変えることで、それぞれを増強する。 0.62
On one side, we label pose vectors for humans walking and running, and automatically select a random pose + noise for each new augmentation. 一方、人間の歩行と走行のためのポーズベクトルをラベル付けし、新しい増強ごとにランダムなポーズ+ノイズを自動的に選択する。 0.68
To pose the 3D scan, we simply assign the skinning weights of each 3D surface vertex to those of the closest SMPL vertex. 3dスキャンを行うには、各3d表面頂点のスキニング重みを、最も近いsmpl頂点のスキン重みに割り当てるだけでよい。 0.68
This can lead to several artifacts, for body parts that are in contact, such as hands, which will generate very large triangles. これは、手のような接触している身体の部分のいくつかの人工物につながり、非常に大きな三角形を生成する。 0.68
We manually prune the generated 3D scans to remove these cases. 手動で生成された3Dスキャンでこれらのケースを取り除きます。 0.61
Next, we tune the body shape of each 3D scan by changing the first shape parameter in the PCA space. 次に,PCA空間における第1の形状パラメータを変化させ,各3Dスキャンの形状を調整した。 0.79
We discretize a number of augmentations with respect to the initial shape and calculate the linear displacement for each body vertex. 我々は,初期形状に関する拡張点を識別し,各体頂点の線形変位を計算する。 0.67
For the 3D scan we apply the displacement of the closest vertex. 3Dスキャンでは、最も近い頂点の変位を適用する。 0.74
This augmentation is proven to be really useful and does not significantly create artifacts since it retains self-contact information. この拡張は本当に有用であることが証明されており、自己接触情報を保持するため、アーティファクトを著しく生成しない。 0.57
We perform 6 augmentations for each scan. スキャン毎に6つの追加処理を行います。 0.49
For the task of human reconstruction from images, we then render each augmentation by rotating around the yaw axis to gather views with different illuminations. 画像から人体を復元する作業では、ヤウ軸を回転させてそれぞれの拡大をレンダリングし、異なる照度でビューを収集する。 0.71
As mentioned in the main document, in total we obtain ∼ 680k rendered images that are used for training and validation. メインドキュメントで述べたように、合計680kのレンダリングイメージを取得して、トレーニングと検証に使用しています。 0.70
Note that the original data consisted only of a few hundred 3D scans, all with very average body shapes. オリジナルのデータは数百の3dスキャンのみで、すべて非常に平均的な体型だった。 0.69
The augmentation led the model represent more diverse shapes and avoid overfitting, but the proposed Learned Vertex Descent paradigm was necessary for it to represent them well. この拡張により、モデルはより多様な形状を表現し、過剰適合を避けることができたが、それらを表現するために提案されたLearned Vertex Descentパラダイムが必要だった。 0.55
The baseline that predicts 予測する基準 0.51
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
23 Fig. 4. Qualitative comparisons with more methods. 23 図4。 質的比較ともっと多くの方法。 0.58
For each method, we show front and side views of the reconstruction. それぞれの方法について,再建の正面および側面の視点を示す。 0.72
SMPL parameters directly did not manage to generalize well beyond the training set. smplパラメータはトレーニングセットを超えてうまく一般化できなかった。 0.60
3 Experiments As mentioned in the main document, we train our model without backgrounds when taking images as input. 実験3 メイン文書で述べたように、イメージを入力として扱う際に、背景のないモデルをトレーニングします。 0.70
Therefore at test time we use RP-R-CNN [82] to automatically segment the foreground person before running the forward pass. したがって、テスト時にRP-R-CNN[82]を使用して、フォワードパスを実行する前に、フォアグラウンドの人物を自動的に分割する。 0.50
However, this can still generate masks with artifacts or missing parts. しかし、これはアーティファクトや欠落部分のマスクを生成することができる。 0.65
We show in Fig 2 that the proposed approach is robust to these noisy masks or parts that were incorrectly segmented. 図2では、提案手法がこれらのノイズマスクや誤ったセグメント化された部分に対して堅牢であることを示します。
訳抜け防止モード: 図2に示します 提案されたアプローチは ノイズの多いマスクや 正しく区切られた部品に対して 堅牢です
0.74
We also show more qualitative examples of 3D reconstruction from a single view in-the-wild in Fig 3, and Fig 4 shows comparisons with the rest of the methods that are not shown in the main document. また,本資料では示されていない他の手法との比較を図4に示すとともに,図3の1つの視野からの3次元再構成の質的な例を示す。 0.84
In particular, we noted several differences between optimization-based and learning-based body pose/shape estimation methods. 特に,最適化に基づく身体ポーズ/形状推定法と学習に基づく身体ポーズ/形状推定法の違いを指摘した。 0.50
On one hand, optimization-based methods [11,56] are often accurate, but have severe failure cases and are slow. 一方、最適化に基づく手法[11,56]は、しばしば正確であるが、深刻な障害があり、遅い。 0.71
On the other hand, learning based methods [37,68,18,39] regress global parameters from the full image. 一方,学習ベース手法[37,68,18,39]は全画像からグローバルパラメータを回帰する。 0.85
Hence, the shape estimates have a strong bias towards the mean. したがって、形状推定は平均に対して強いバイアスを持つ。 0.75
Moreover, learning-based methods are not able to verify their initial estimates against the image. さらに、学習に基づく手法では、画像に対する初期推定を検証できない。 0.76
Our goal in this paper is to combine the advantages of both methods. 本稿では,両手法の利点を組み合わせることを目的とする。 0.74
LVD produces varied shape estimates thanks to the learned per vertex descent directions which are conditioned on local image evidence, and can work in real time. LVDは、局所的な画像証拠に条件付けされ、リアルタイムで機能する頂点毎の学習方向により、様々な形状推定を生成する。 0.65
In addition, we focus on designing a general method that is straightforward to apply to other input modalities such as 3D point clouds. さらに,3次元点雲などの他の入力モダリティにも容易に適用できる汎用手法の設計にも着目する。
訳抜け防止モード: さらに、我々は焦点を合わせます 3Dポイントクラウドのような他の入力モダリティに適用しやすい一般的な手法を設計する。
0.75
In this direction, Fig. 5 includes more results on the task of 3D registration of 3D scans and Fig 6 shows 3D registration results of MANO of LVD in comparison to those of IP- この方向では、図5は3Dスキャンの3D登録タスクに関するより多くの結果を含み、図6はIPと比較してLVDのMANOの3D登録結果を示している。 0.79
InputSMPL-XSPINFrank MoCapExPoseProHMRLVD Optimization-basedLe arning-basedOurs 入力SMPL-XSPINFrankMoCap ExPoseProHMRLVD最適化に基づくLearning-basedOurs 0.12
英語(論文から抽出)日本語訳スコア
24 Corona et al Scan 24 コロナなど スキャン 0.49
LoopReg [9] LoopReg [9] 0.43
IP-Net [8] IP-Net [8] 0.42
Ours Fig. 5. SMPL registration of 3D scans showing SMPL and SMPL-D for LoopReg, IP-Net and LVD. 我々の 図5。 SMPLによるLoopReg, IP-Net, LVDのSMPLとSMPL-Dの3Dスキャンの登録 0.65
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
25 Fig. 6. Registration of 3D Hands using MANO [67]. 25 図6。 MANO[67]を用いた3Dハンドの登録 0.63
The input to IP-Net [8] or LVD is the input point cloud in the left column, while the groundtruth 3D scan is shown in the second column. IP-Net [8] または LVD への入力は左カラムの入力点クラウドであり、基底3Dスキャンは第2カラムに表示される。 0.81
IP-Net performs similarly well in most cases, but is most confused in the presence of other objects or very noisy pointclouds. ip-netもほとんどのケースで同じように機能するが、他のオブジェクトや非常に騒がしいpointcloudの存在では最も混乱している。 0.64
3D ScanLVDInput point cloudIP-NetGT 3D ScanLVDInput Point cloudIP-NetGT 0.36
英語(論文から抽出)日本語訳スコア
26 Corona et al Fig. 7. 26 コロナなど 第7話。 0.39
Failure cases from LVD in body shape estimation from single view images (first row), 3D registration of humans from point clouds (second row - left) and 3D registration from hands (second row - right). 単一ビューイメージ(第1行)からの体型推定におけるLVDからの障害事例,点雲(第2行 - 左)からの人間の3D登録,手(第2行 - 右)からの3D登録。 0.79
See Section 4 for more details. 詳細は第4節を参照。 0.70
Net [8]. IP-Net obtains quantitative results close to LVD, and works generally well for clean 3D scans. ネット[8]。 ip-netはlvdに近い量的結果を得、クリーンな3dスキャンでよく機能する。 0.56
However, it might converge to wrong local minima when tackling 3D point clouds with objects or holes. しかし、物体や穴で3dポイントの雲に取り組むとき、それは間違った局所的なミニマに収束する可能性がある。 0.50
4 Failure cases. We finally include failure cases of LVD in all tasks where we evaluate our approach, in Fig 7. 故障4件。 最終的に、我々のアプローチを評価するすべてのタスクにおいて、LVDの障害ケースをFig 7に含めました。
訳抜け防止モード: 故障4件。 最終的に、アプローチを評価するすべてのタスクにLVDの障害ケースを含めます。 第7図。
0.61
For the task of body shape estimation from single view (First row), the body shapes we can generate are limited by the SMPL model and the training data, and cannot accurately reproduce body shapes of e g pregnant women (second example). 単一視点(第1行)からの身体形状推定のタスクでは, SMPLモデルとトレーニングデータによって身体形状が制限され, eg妊婦の身体形状を正確に再現することができない(第2例)。 0.78
Furthermore, our training data is rather limited in the diversity of body poses, so challenging body poses is another reason for failure cases. さらに、トレーニングデータは、身体のポーズの多様性にかなり制限されているため、身体のポーズが障害ケースの別の理由です。 0.61
For instance, examples in Fig 7 top-left and top-right show scenarios that are rare in the train data, and the predicted body does not correctly adjust to the input image. 例えば、Fig 7の左上と右上の例では、列車データに稀なシナリオを示し、予測されたボディは入力画像に正しく適応しない。 0.66
However, note that the wrong body parts are predicted to have a big uncertainty (in dark blue). しかし、間違った体部は大きな不確実性(暗青色)を持つと予測されていることに注意。 0.70
Groundtruth3D ScanPred.3D Scan3D ScanPred.Pred.InputI nputInputPred.Pred.P red. Groundtruth3D ScanPred.3D Scan3D ScanPred.Pred.InputI nputPred.Pred.Pred 0.17
英語(論文から抽出)日本語訳スコア
Learned Vertex Descent: A New Direction for 3D Human Model Fitting Learned Vertex Descent: 3Dモデルフィッティングの新しい方向 0.69
27 In Fig 7 (Second row) we show more examples of failure cases in 3D regis- 27 図7(第2列)では、3Dレジで発生する障害事例をさらに示す。 0.54
tration of human scans and hands. 人間のスキャンと手の動きです 0.73
                                                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。