論文の概要: SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
- arxiv url: http://arxiv.org/abs/2309.17448v2
- Date: Mon, 30 Oct 2023 16:08:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 22:38:50.679563
- Title: SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
- Title(参考訳): SMPLer-X:表現力のある人文のスケールアップと形状推定
- Authors: Zhongang Cai, Wanqi Yin, Ailing Zeng, Chen Wei, Qingping Sun, Yanjun
Wang, Hui En Pang, Haiyi Mei, Mingyuan Zhang, Lei Zhang, Chen Change Loy, Lei
Yang, Ziwei Liu
- Abstract要約: 表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
- 参考スコア(独自算出の注目度): 85.22284354556338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Expressive human pose and shape estimation (EHPS) unifies body, hands, and
face motion capture with numerous applications. Despite encouraging progress,
current state-of-the-art methods still depend largely on a confined set of
training datasets. In this work, we investigate scaling up EHPS towards the
first generalist foundation model (dubbed SMPLer-X), with up to ViT-Huge as the
backbone and training with up to 4.5M instances from diverse data sources. With
big data and the large model, SMPLer-X exhibits strong performance across
diverse test benchmarks and excellent transferability to even unseen
environments. 1) For the data scaling, we perform a systematic investigation on
32 EHPS datasets, including a wide range of scenarios that a model trained on
any single dataset cannot handle. More importantly, capitalizing on insights
obtained from the extensive benchmarking process, we optimize our training
scheme and select datasets that lead to a significant leap in EHPS
capabilities. 2) For the model scaling, we take advantage of vision
transformers to study the scaling law of model sizes in EHPS. Moreover, our
finetuning strategy turn SMPLer-X into specialist models, allowing them to
achieve further performance boosts. Notably, our foundation model SMPLer-X
consistently delivers state-of-the-art results on seven benchmarks such as
AGORA (107.2 mm NMVE), UBody (57.4 mm PVE), EgoBody (63.6 mm PVE), and EHF
(62.3 mm PVE without finetuning). Homepage:
https://caizhongang.github.io/projects/SMPLer-X/
- Abstract(参考訳): 表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きのキャプチャを多数の応用で統一する。
進歩を奨励しているにもかかわらず、現在の最先端の手法は依然としてトレーニングデータセットの限定セットに依存している。
本研究では,VT-Hugeをバックボーンとし,さまざまなデータソースから最大4.5万インスタンスをトレーニングする,最初のジェネラリスト基盤モデル(SMPLer-Xと呼ばれる)へのEHPSのスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
1) データのスケーリングには,32のEHPSデータセットに対して,単一のデータセットでトレーニングしたモデルでは処理できない幅広いシナリオを含む,体系的な調査を行う。
さらに重要なのは、広範なベンチマークプロセスから得られた洞察を活かして、トレーニングスキームを最適化し、EHPS能力の大きな飛躍につながるデータセットを選択することです。
2) モデルスケーリングでは,EHPSにおけるモデルサイズのスケーリング法則を研究するために,視覚変換器を利用する。
さらに,我々はSMPLer-Xを専門モデルとし,さらなる性能向上を実現した。
AGORA (107.2 mm NMVE)、UBody (57.4 mm PVE)、EgoBody (63.6 mm PVE)、EHF (62.3 mm PVE) の7つのベンチマークに対して、我々の基礎モデルSMPLer-Xは一貫して最先端の結果を提供する。
ホームページ:https://caizhongang.github.io/projects/SMPLer-X/
関連論文リスト
- DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE
Pre-Training [90.82825098156299]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。
我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文 参考訳(メタデータ) (2024-03-06T08:38:34Z) - Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric
Super-Resolution with BLASTNet 2.0 Data [4.293221567339693]
圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。
我々は34個の高忠実度直接数値シミュレーションから744個のフルドメインのサンプルを含む2.2TBのデータセットネットワークを提案する。
3次元超解像のための5つのディープラーニングアプローチの合計49種類のバリエーションをベンチマークする。
論文 参考訳(メタデータ) (2023-09-23T18:57:02Z) - Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2023-06-01T00:32:59Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - A Billion-scale Foundation Model for Remote Sensing Images [5.8010446129208155]
基礎モデルの事前学習における3つの重要な要因は、事前学習方法、事前学習データセットのサイズ、モデルパラメータの数である。
本稿では,下流タスクにおける基礎モデルの性能に及ぼすモデルパラメータ数の増加の影響について検討する。
我々の知る限りでは、これはリモートセンシング分野における最初の10億ドル規模の基礎モデルである。
論文 参考訳(メタデータ) (2023-04-11T13:33:45Z) - FlexMoE: Scaling Large-scale Sparse Pre-trained Model Training via
Dynamic Device Placement [19.639936387834677]
Mixture-of-Experts (MoEs) は、様々なダウンストリームタスクにおいて、優れた事前トレーニングのスケーラビリティを示している。
MoEはデータライフサイクルにおける新たなデータ分析パラダイムになりつつある。
本稿では,動的データフローによる非効率性に対して系統的かつ透過的に対処する新しいDNNトレーニングフレームワークFlexMoEを提案する。
論文 参考訳(メタデータ) (2023-04-08T07:34:26Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation [97.93687743378106]
既存の3Dポーズ推定モデルは、目に見えないポーズを持つ新しいシナリオに適用する場合、パフォーマンス低下を被る。
本稿では、3次元ポーズモデルの一般化性を改善するための新しいフレームワークである推論段階最適化(ISO)を提案する。
注目すべきは、MPI-INF-3DHPで83.6%の最先端の3D PCKが得られることだ。
論文 参考訳(メタデータ) (2020-07-04T09:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。