論文の概要: Sapiens: Foundation for Human Vision Models
- arxiv url: http://arxiv.org/abs/2408.12569v2
- Date: Fri, 23 Aug 2024 18:34:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 12:32:31.106868
- Title: Sapiens: Foundation for Human Vision Models
- Title(参考訳): Sapiens: 人間の視覚モデルの基礎
- Authors: Rawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito,
- Abstract要約: サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
モデルは1Kの高解像度推論をサポートし、個々のタスクに容易に適応できる。
人間の画像のキュレートされたデータセット上での自己教師付き事前トレーニングは、多種多様な人間中心のタスクのパフォーマンスを著しく向上させる。
- 参考スコア(独自算出の注目度): 14.72839332332364
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present Sapiens, a family of models for four fundamental human-centric vision tasks - 2D pose estimation, body-part segmentation, depth estimation, and surface normal prediction. Our models natively support 1K high-resolution inference and are extremely easy to adapt for individual tasks by simply fine-tuning models pretrained on over 300 million in-the-wild human images. We observe that, given the same computational budget, self-supervised pretraining on a curated dataset of human images significantly boosts the performance for a diverse set of human-centric tasks. The resulting models exhibit remarkable generalization to in-the-wild data, even when labeled data is scarce or entirely synthetic. Our simple model design also brings scalability - model performance across tasks improves as we scale the number of parameters from 0.3 to 2 billion. Sapiens consistently surpasses existing baselines across various human-centric benchmarks. We achieve significant improvements over the prior state-of-the-art on Humans-5K (pose) by 7.6 mAP, Humans-2K (part-seg) by 17.1 mIoU, Hi4D (depth) by 22.4% relative RMSE, and THuman2 (normal) by 53.5% relative angular error. Project page: $\href{https://about.meta.com/realitylabs/codecavatars/sapiens}{\text{this https URL}}$.
- Abstract(参考訳): 2次元ポーズ推定、身体部分分割、深度推定、表面正規予測の4つの基本的人間中心視覚タスクのモデルであるサピエンスを提示する。
われわれのモデルは1Kの高解像度推論をネイティブにサポートしており、3億枚以上の人体画像で事前訓練された微調整モデルにより、個々のタスクに非常に容易に適応できる。
計算予算が同じであるので、人間の画像のキュレートされたデータセットでの自己教師付き事前トレーニングは、多種多様な人間中心のタスクのパフォーマンスを著しく向上させる。
得られたモデルは、ラベル付きデータが不足している場合や完全に合成されている場合であっても、Wild内のデータに対する顕著な一般化を示す。
私たちのシンプルなモデル設計はスケーラビリティももたらします - 0.3から20億までのパラメータ数をスケールすることで、タスク間のモデルパフォーマンスが向上します。
Sapiensは、さまざまな人間中心のベンチマークで、既存のベースラインを一貫して上回っている。
我々は,Humans-5K (pose) が7.6mAP,Humans-2K (part-seg) が17.1mIoU,Hi4D (deepth) が22.4%,Human2 (normal) が53.5%,Human2 (state-of-the-art) が53.5%,Human2 (state-of-the-art) が7.6mAP,Humans-2K (part-seg) よりも大幅に改善された。
プロジェクトページ: $\href{https://about.meta.com/realitylabs/codecavatars/sapiens}{\text{this https URL}}$
関連論文リスト
- PoseBench: Benchmarking the Robustness of Pose Estimation Models under Corruptions [57.871692507044344]
ポース推定は、単眼画像を用いて人や動物の解剖学的キーポイントを正確に同定することを目的としている。
現在のモデルは一般的に、クリーンなデータに基づいてトレーニングされ、テストされる。
実世界の腐敗に対するポーズ推定モデルの堅牢性を評価するためのベンチマークであるPoseBenchを紹介する。
論文 参考訳(メタデータ) (2024-06-20T14:40:17Z) - Cross-view and Cross-pose Completion for 3D Human Understanding [22.787947086152315]
画像のみを用いて人間中心のデータを扱う自己教師付き学習に基づく事前学習手法を提案する。
身体中心タスクのためのモデルと手中心タスクのためのモデルを事前訓練する。
汎用的なトランスフォーマーアーキテクチャでは、これらのモデルは、広範囲の人間中心の下流タスクにおいて、既存の自己教師付き事前学習方法より優れている。
論文 参考訳(メタデータ) (2023-11-15T16:51:18Z) - HAP: Structure-Aware Masked Image Modeling for Human-Centric Perception [97.55089867970874]
本稿では,この課題に対する事前学習手法として,マスク付き画像モデリング(MIM)を導入する。
この知見に触発され、人間の前部である直感的な人体構造を事前学習に組み込む。
これにより、モデルが事前トレーニング中に身体構造情報に集中し、さまざまな人間中心の知覚タスクに実質的な利益をもたらす。
論文 参考訳(メタデータ) (2023-10-31T17:56:11Z) - SynBody: Synthetic Dataset with Layered Human Models for 3D Human
Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。
データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文 参考訳(メタデータ) (2023-03-30T13:30:12Z) - UniHCP: A Unified Model for Human-Centric Perceptions [75.38263862084641]
我々は、人間中心知覚のための統一モデル(UniHCP)を提案する。
UniHCPは、単純なエンドツーエンドで広範囲の人間中心のタスクをプレーンビジョントランスフォーマーアーキテクチャと統合する。
33の人間中心のデータセットで大規模な共同トレーニングを行うことで、UniHCPは直接評価によって強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-03-06T07:10:07Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Partial success in closing the gap between human and machine vision [30.78663978510427]
数年前、最初のCNNがImageNetで人間のパフォーマンスを上回った。
人間のビジョンとマシンビジョンのギャップを埋める作業は進んでいますか?
我々は、広範囲なアウト・オブ・ディストリビューション(OOD)データセット上で、人間のオブザーバをテストした。
論文 参考訳(メタデータ) (2021-06-14T13:23:35Z) - LiftFormer: 3D Human Pose Estimation using attention models [0.0]
本稿では,映像中の人間のポーズの順序付けに注意機構を活用することで,より正確な3次元予測を実現するためのモデルを提案する。
本手法は,Human3.6Mにおける2次元キーポイント予測器の0.3 mm (44.8 MPJPE, 0.7%改善) と2mm (MPJPE: 31.9, 8.4%改善) の2次元真理入力の双方を用いた場合,文献の先行結果よりも一貫して優れていた。
我々の3Dリフトモデルの精度は、他のエンドツーエンドまたはSMPLアプローチよりも高く、多くのマルチビュー手法に匹敵する。
論文 参考訳(メタデータ) (2020-09-01T11:05:45Z) - Cascaded deep monocular 3D human pose estimation with evolutionary
training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。
本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。
本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文 参考訳(メタデータ) (2020-06-14T03:09:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。