論文の概要: Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2004.03686v3
- Date: Fri, 22 Oct 2021 02:55:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:35:20.524194
- Title: Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation
- Title(参考訳): In-the-Wild 3D Human Pose 推定に向けた3次元人体モデル構築のためのファインチューニング
- Authors: Hanbyul Joo, Natalia Neverova, Andrea Vedaldi
- Abstract要約: 3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
- 参考スコア(独自算出の注目度): 107.07047303858664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Differently from 2D image datasets such as COCO, large-scale human datasets
with 3D ground-truth annotations are very difficult to obtain in the wild. In
this paper, we address this problem by augmenting existing 2D datasets with
high-quality 3D pose fits. Remarkably, the resulting annotations are sufficient
to train from scratch 3D pose regressor networks that outperform the current
state-of-the-art on in-the-wild benchmarks such as 3DPW. Additionally, training
on our augmented data is straightforward as it does not require to mix multiple
and incompatible 2D and 3D datasets or to use complicated network architectures
and training procedures. This simplified pipeline affords additional
improvements, including injecting extreme crop augmentations to better
reconstruct highly truncated people, and incorporating auxiliary inputs to
improve 3D pose estimation accuracy. It also reduces the dependency on 3D
datasets such as H36M that have restrictive licenses. We also use our method to
introduce new benchmarks for the study of real-world challenges such as
occlusions, truncations, and rare body poses. In order to obtain such high
quality 3D pseudo-annotations, inspired by progress in internal learning, we
introduce Exemplar Fine-Tuning (EFT). EFT combines the re-projection accuracy
of fitting methods like SMPLify with a 3D pose prior implicitly captured by a
pre-trained 3D pose regressor network. We show that EFT produces 3D annotations
that result in better downstream performance and are qualitatively preferable
in an extensive human-based assessment.
- Abstract(参考訳): cocoのような2d画像データセットとは異なり、大規模な3d地上アノテーション付き人間データセットは、野放しで取得するのが非常に難しい。
本稿では,高品質な3Dポーズフィットで既存の2Dデータセットを拡大することにより,この問題に対処する。
注目すべきは、結果として得られたアノテーションがスクラッチからトレーニングするのに十分であり、3DPWのような現在最先端のベンチマークよりも優れていることだ。
さらに、拡張データのトレーニングは、複数の互換性のない2dおよび3dデータセットを混ぜたり、複雑なネットワークアーキテクチャとトレーニング手順を使用する必要がないため、簡単です。
この単純化されたパイプラインは、3Dポーズ推定精度を改善するために補助的な入力を組み込むなど、極端な作物増産を注入するなど、さらなる改善をもたらす。
また、制限付きライセンスを持つH36Mのような3Dデータセットへの依存を低減する。
また,本手法を用いて,オクルージョンやトランケーション,レアボディーポーズなどの現実的課題の研究に新たなベンチマークを導入する。
内部学習の進歩にインスパイアされた高品質な3次元擬似アノテーションを得るために,Exemplar Fine-Tuning(EFT)を導入する。
EFTは、SMPLifyのようなフィッティング手法の再投影精度と、事前訓練された3Dポーズ回帰器ネットワークによって暗黙的にキャプチャされた3Dポーズを組み合わせる。
EFTは、下流の性能が向上し、人間による広範囲な評価において質的に有利な3Dアノテーションを生成する。
関連論文リスト
- Improving 2D Feature Representations by 3D-Aware Fine-Tuning [17.01280751430423]
現在の視覚基礎モデルは、構造化されていない2Dデータに基づいて純粋に訓練されている。
3次元認識データの微調整により,出現するセマンティックな特徴の質が向上することを示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:21Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Text-to-3D Generation with Bidirectional Diffusion using both 2D and 3D
priors [16.93758384693786]
双方向拡散(Bidirectional Diffusion、BiDiff)は、3次元と2次元の拡散プロセスの両方を組み込んだ統合フレームワークである。
我々のモデルは高品質で多種多様でスケーラブルな3D生成を実現する。
論文 参考訳(メタデータ) (2023-12-07T10:00:04Z) - Decanus to Legatus: Synthetic training for 2D-3D human pose lifting [26.108023246654646]
10個の手作り3Dポーズ(Decanus)に基づく3Dポーズ分布から無限個の合成人間のポーズ(Legatus)を生成するアルゴリズムを提案する。
この結果から,特定データセットの実際のデータを用いた手法に匹敵する3次元ポーズ推定性能を,ゼロショット設定で実現し,フレームワークの可能性を示した。
論文 参考訳(メタデータ) (2022-10-05T13:10:19Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Data Efficient 3D Learner via Knowledge Transferred from 2D Model [30.077342050473515]
我々は、RGB-D画像を介して強力な2Dモデルから知識を伝達することで、3Dタスクのデータ不足に対処する。
擬似ラベルを用いたRGB-D画像の強化には,2次元画像の強いセマンティック・セマンティック・セマンティック・セマンティック・セマンティクス・モデルを用いる。
提案手法は,3次元ラベルの効率向上に適した既存の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2022-03-16T09:14:44Z) - Advancing 3D Medical Image Analysis with Variable Dimension Transform
based Supervised 3D Pre-training [45.90045513731704]
本稿では,革新的でシンプルな3Dネットワーク事前学習フレームワークを再考する。
再設計された3Dネットワークアーキテクチャにより、データ不足の問題に対処するために、修正された自然画像が使用される。
4つのベンチマークデータセットに関する総合的な実験により、提案した事前学習モデルが収束を効果的に加速できることが示されている。
論文 参考訳(メタデータ) (2022-01-05T03:11:21Z) - Asymmetric 3D Context Fusion for Universal Lesion Detection [55.61873234187917]
3Dネットワークは、3Dコンテキストでは強いが、教師付き事前トレーニングがない。
既存の3Dコンテキスト融合演算子は空間対称に設計されており、畳み込みのように各2Dスライス上で同一の操作を行う。
本研究では, 異なる重みを持つ非対称な3次元コンテキスト融合演算子 (A3D) を提案し, 異なる2次元スライスから3次元コンテキストを融合させる。
論文 参考訳(メタデータ) (2021-09-17T16:25:10Z) - Synthetic Training for Monocular Human Mesh Recovery [100.38109761268639]
本稿では,RGB画像と大規模に異なる複数の身体部位の3次元メッシュを推定することを目的とする。
主な課題は、2D画像のすべての身体部分の3Dアノテーションを完備するトレーニングデータがないことである。
本稿では,D2S(Deep-to-scale)投影法を提案する。
論文 参考訳(メタデータ) (2020-10-27T03:31:35Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。