論文の概要: Three Recipes for Better 3D Pseudo-GTs of 3D Human Mesh Estimation in
the Wild
- arxiv url: http://arxiv.org/abs/2304.04875v1
- Date: Mon, 10 Apr 2023 21:43:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-12 16:56:40.405868
- Title: Three Recipes for Better 3D Pseudo-GTs of 3D Human Mesh Estimation in
the Wild
- Title(参考訳): 野生における3次元メッシュ推定のための3次元擬似GT
- Authors: Gyeongsik Moon, Hongsuk Choi, Sanghyuk Chun, Jiyoung Lee, Sangdoo Yun
- Abstract要約: 3次元擬似GTは3次元メッシュ推定ネットワークのトレーニングに広く利用されている。
ITWデータセットの3次元擬似GTを得るための3つのレシピを提供する。
それぞれのレシピは、深さのあいまいさ、弱監督の準最適性、そして不明瞭な明瞭さという、それぞれの側面の課題に対処します。
- 参考スコア(独自算出の注目度): 38.063208456276335
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recovering 3D human mesh in the wild is greatly challenging as in-the-wild
(ITW) datasets provide only 2D pose ground truths (GTs). Recently, 3D
pseudo-GTs have been widely used to train 3D human mesh estimation networks as
the 3D pseudo-GTs enable 3D mesh supervision when training the networks on ITW
datasets. However, despite the great potential of the 3D pseudo-GTs, there has
been no extensive analysis that investigates which factors are important to
make more beneficial 3D pseudo-GTs. In this paper, we provide three recipes to
obtain highly beneficial 3D pseudo-GTs of ITW datasets. The main challenge is
that only 2D-based weak supervision is allowed when obtaining the 3D
pseudo-GTs. Each of our three recipes addresses the challenge in each aspect:
depth ambiguity, sub-optimality of weak supervision, and implausible
articulation. Experimental results show that simply re-training
state-of-the-art networks with our new 3D pseudo-GTs elevates their performance
to the next level without bells and whistles. The 3D pseudo-GT is publicly
available in https://github.com/mks0601/NeuralAnnot_RELEASE.
- Abstract(参考訳): IW(In-the-Wild)データセットが2次元ポーズ基底真理(GT)のみを提供するため、野生で3Dのメッシュを復元することは極めて難しい。
近年、3D擬似GTは、ITWデータセット上でネットワークをトレーニングする際に、3D擬似GTが3Dメッシュの監視を可能にするため、人間のメッシュ推定ネットワークのトレーニングに広く利用されている。
しかし、3D擬似GTの大きな可能性にもかかわらず、より有用な3D擬似GTを作るのにどの因子が重要であるかを調べるための広範な分析は行われていない。
本稿では,ITWデータセットの3次元擬似GTを得るための3つのレシピを提案する。
主な課題は、3D擬似GTを取得する際に2Dベースの弱い監視しか許可されないことである。
それぞれのレシピは、深さのあいまいさ、弱監督の準最適性、そして不明瞭な明瞭さという、それぞれの側面の課題に対処します。
実験の結果,新しい3D擬似GTを用いて,単に最先端ネットワークをトレーニングするだけで,ベルやホイッスルを使わずに次のレベルまで性能が向上することがわかった。
3Dの擬似GTはhttps://github.com/mks0601/NeuralAnnot_RELEASEで公開されている。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Lift3D: Synthesize 3D Training Data by Lifting 2D GAN to 3D Generative
Radiance Field [16.15190186574068]
データ生成の目的を達成するために,逆2D-to-3D生成フレームワークであるLift3Dを提案する。
2D GANを3DオブジェクトNeRFに持ち上げることで、Lift3Dは生成されたオブジェクトの明示的な3D情報を提供する。
我々は、自律運転データセットを増強することで、我々のフレームワークの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-07T07:43:02Z) - Towards 3D Object Detection with 2D Supervision [13.444432119639822]
大規模2次元ラベルを用いた視覚的3次元物体検出器の学習を可能にするハイブリッドトレーニングフレームワークを提案する。
本稿では3次元予測を時間的2次元ラベルでブリッジする時間的2次元変換を提案する。
nuScenesデータセットで実施された実験は、25%の3Dアノテーションで、強い結果(完全に教師されたパフォーマンスの90%近く)を示した。
論文 参考訳(メタデータ) (2022-11-15T16:40:11Z) - Can We Solve 3D Vision Tasks Starting from A 2D Vision Transformer? [111.11502241431286]
視覚変換器(ViT)は2次元画像理解タスクの解決に有効であることが証明されている。
2Dおよび3Dタスク用のViTは、これまでほとんど転送できない、非常に異なるアーキテクチャ設計を採用してきた。
本稿では,標準的な2D ViTアーキテクチャを用いて,3次元視覚世界を理解するという魅力的な約束を示す。
論文 参考訳(メタデータ) (2022-09-15T03:34:58Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - NeuralAnnot: Neural Annotator for 3D Human Mesh Training Sets [70.23652933572647]
ほとんどの3次元メッシュ回帰器は、3次元擬似GT人間のモデルパラメータで制御され、GT 2D/3D関節座標で弱制御される。
ニューラルネットワークベースのアノテータであるNeuralAnnotを紹介する。
NeuralAnnotの3次元擬似GTは回帰器の訓練に非常に有益であることを示す。
論文 参考訳(メタデータ) (2020-11-23T06:33:39Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。