Fugu-MT 論文翻訳(概要): SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

論文の概要: SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation

arxiv url: http://arxiv.org/abs/2309.17448v2
Date: Mon, 30 Oct 2023 16:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-01 22:38:50.679563
Title: SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation
Title（参考訳）: SMPLer-X:表現力のある人文のスケールアップと形状推定
Authors: Zhongang Cai, Wanqi Yin, Ailing Zeng, Chen Wei, Qingping Sun, Yanjun Wang, Hui En Pang, Haiyi Mei, Mingyuan Zhang, Lei Zhang, Chen Change Loy, Lei Yang, Ziwei Liu
Abstract要約: 表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
参考スコア（独自算出の注目度）: 85.22284354556338
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Expressive human pose and shape estimation (EHPS) unifies body, hands, and face motion capture with numerous applications. Despite encouraging progress, current state-of-the-art methods still depend largely on a confined set of training datasets. In this work, we investigate scaling up EHPS towards the first generalist foundation model (dubbed SMPLer-X), with up to ViT-Huge as the backbone and training with up to 4.5M instances from diverse data sources. With big data and the large model, SMPLer-X exhibits strong performance across diverse test benchmarks and excellent transferability to even unseen environments. 1) For the data scaling, we perform a systematic investigation on 32 EHPS datasets, including a wide range of scenarios that a model trained on any single dataset cannot handle. More importantly, capitalizing on insights obtained from the extensive benchmarking process, we optimize our training scheme and select datasets that lead to a significant leap in EHPS capabilities. 2) For the model scaling, we take advantage of vision transformers to study the scaling law of model sizes in EHPS. Moreover, our finetuning strategy turn SMPLer-X into specialist models, allowing them to achieve further performance boosts. Notably, our foundation model SMPLer-X consistently delivers state-of-the-art results on seven benchmarks such as AGORA (107.2 mm NMVE), UBody (57.4 mm PVE), EgoBody (63.6 mm PVE), and EHF (62.3 mm PVE without finetuning). Homepage: https://caizhongang.github.io/projects/SMPLer-X/
Abstract（参考訳）: 表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きのキャプチャを多数の応用で統一する。進歩を奨励しているにもかかわらず、現在の最先端の手法は依然としてトレーニングデータセットの限定セットに依存している。本研究では,VT-Hugeをバックボーンとし,さまざまなデータソースから最大4.5万インスタンスをトレーニングする,最初のジェネラリスト基盤モデル(SMPLer-Xと呼ばれる)へのEHPSのスケールアップについて検討する。ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。 1) データのスケーリングには,32のEHPSデータセットに対して,単一のデータセットでトレーニングしたモデルでは処理できない幅広いシナリオを含む,体系的な調査を行う。さらに重要なのは、広範なベンチマークプロセスから得られた洞察を活かして、トレーニングスキームを最適化し、EHPS能力の大きな飛躍につながるデータセットを選択することです。 2) モデルスケーリングでは,EHPSにおけるモデルサイズのスケーリング法則を研究するために,視覚変換器を利用する。さらに,我々はSMPLer-Xを専門モデルとし,さらなる性能向上を実現した。 AGORA (107.2 mm NMVE)、UBody (57.4 mm PVE)、EgoBody (63.6 mm PVE)、EHF (62.3 mm PVE) の7つのベンチマークに対して、我々の基礎モデルSMPLer-Xは一貫して最先端の結果を提供する。ホームページ:https://caizhongang.github.io/projects/SMPLer-X/

関連論文リスト

Scaling Laws of Motion Forecasting and Planning -- A Technical Report [23.340801154900387]
本研究では,エンコーダ・デコーダ・オートレグレッシブ・トランスモデルの実証スケーリング法則について検討する。モデルトレーニング損失とモデル評価指標との間には,強い相関関係がみられた。我々は,エゴエージェントの性能向上のために,他のエージェントの一般的なログ化された運転データに対するトレーニングの有用性を短時間で検討した。
論文参考訳（メタデータ） (2025-06-09T20:54:23Z)
WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。 1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文参考訳（メタデータ） (2025-05-15T17:38:37Z)
Can Test-Time Scaling Improve World Foundation Model? [67.82670175383761]
我々は世界基盤モデル(WFM)に適したテストタイムスケーリングフレームワークであるSWIFTを紹介する。 COSMOSモデルの実証的な結果は、テストタイムのスケーリングが計算-最適方法であっても存在することを示している。その結果,テストタイムスケーリング法則はWFMに対して有効であり,SWIFTはモデルサイズを調整・増大させることなく,WFM推論を改善するためのスケーラブルで効果的な経路を提供することがわかった。
論文参考訳（メタデータ） (2025-03-31T17:07:37Z)
Scaling Laws for Emulation of Stellar Spectra [0.0]
最適な性能を達成するために、トランスフォーマーベースのスペクトルエミュレータをスケーリングするためのトレーニングガイドラインを提供する。この結果から,最適計算資源割り当てにはバランスの取れたスケーリングが必要であることが示唆された。本研究は、拡張されたドメイン転送機能を持つスペクトル基底モデルを開発するための基盤を確立する。
論文参考訳（メタデータ） (2025-03-24T12:20:24Z)
SeisMoLLM: Advancing Seismic Monitoring via Cross-modal Transfer with Pre-trained Large Language Model [69.74609763584449]
本研究は,地震モニタリングにクロスモーダル転送を利用する最初の基礎モデルであるSeesMoLLMを提示する。 5つの重要なタスクでDiTingとSTEADデータセットの最先端のパフォーマンスを実現する。優れたパフォーマンスに加えて、SeesMoLLMはトレーニングと推論の両方において軽量モデルに匹敵する効率を維持している。
論文参考訳（メタデータ） (2025-02-27T10:35:53Z)
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
Scaling Laws for Task-Optimized Models of the Primate Visual Ventral Stream [3.4526439922541705]
霊長類視覚腹側流(VVS)のモデリングにおけるスケーリング法則の評価を行った。行動アライメントはより大きなモデルでスケールし続けるが、ニューラルアライメントは飽和する。スケーリングの増加は、少数のサンプルでトレーニングされた小さなモデルでは、アライメントが不十分である、高レベルの視覚領域において特に有益である。
論文参考訳（メタデータ） (2024-11-08T17:13:53Z)
Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文参考訳（メタデータ） (2024-04-17T19:16:32Z)
SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation [53.675725490807615]
SDPoseは小型変圧器モデルの性能向上のための新しい自己蒸留法である。 SDPose-Tは4.4Mパラメータと1.8 GFLOPを持つ69.7%のmAPを取得し、SDPose-S-V2はMSCOCO検証データセット上で73.5%のmAPを取得する。
論文参考訳（メタデータ） (2024-04-04T15:23:14Z)
DPOT: Auto-Regressive Denoising Operator Transformer for Large-Scale PDE Pre-Training [87.90342423839876]
我々は,PDEデータに対するより安定的で効率的な事前学習を可能にする,自己回帰型事前学習戦略を提案する。我々は,100k以上の軌道を持つ10以上のPDEデータセットに対して,最大0.5BパラメータでPDEファンデーションモデルをトレーニングする。
論文参考訳（メタデータ） (2024-03-06T08:38:34Z)
Turbulence in Focus: Benchmarking Scaling Behavior of 3D Volumetric Super-Resolution with BLASTNet 2.0 Data [4.293221567339693]
圧縮性乱流の解析は、推進、エネルギー発生、環境に関する応用に不可欠である。我々は34個の高忠実度直接数値シミュレーションから744個のフルドメインのサンプルを含む2.2TBのデータセットネットワークを提案する。 3次元超解像のための5つのディープラーニングアプローチの合計49種類のバリエーションをベンチマークする。
論文参考訳（メタデータ） (2023-09-23T18:57:02Z)
Towards Foundation Models for Scientific Machine Learning: Characterizing Scaling and Transfer Behavior [32.74388989649232]
我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
論文参考訳（メタデータ） (2023-06-01T00:32:59Z)
Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。具体的には、Webで収集したCoyo-700Mデータセットを利用する。我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文参考訳（メタデータ） (2023-05-24T15:33:46Z)
Self-Supervised Pre-Training for Transformer-Based Person Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文参考訳（メタデータ） (2021-11-23T18:59:08Z)
Inference Stage Optimization for Cross-scenario 3D Human Pose Estimation [97.93687743378106]
既存の3Dポーズ推定モデルは、目に見えないポーズを持つ新しいシナリオに適用する場合、パフォーマンス低下を被る。本稿では、3次元ポーズモデルの一般化性を改善するための新しいフレームワークである推論段階最適化(ISO)を提案する。注目すべきは、MPI-INF-3DHPで83.6%の最先端の3D PCKが得られることだ。
論文参考訳（メタデータ） (2020-07-04T09:45:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。