論文の概要: Sapiens2
- arxiv url: http://arxiv.org/abs/2604.21681v1
- Date: Thu, 23 Apr 2026 13:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.566333
- Title: Sapiens2
- Title(参考訳): サピエンス2
- Authors: Rawal Khirodkar, He Wen, Julieta Martinez, Yuan Dong, Su Zhaoen, Shunsuke Saito,
- Abstract要約: 人中心視覚のための高分解能トランスフォーマーのモデルファミリーであるSapiens2を提示する。
私たちのモデルサイズは0.4から50億のパラメータで、ネイティブの1K解像度と4Kをサポートする階層的なバリエーションがあります。
- 参考スコア(独自算出の注目度): 28.286198457494596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Sapiens2, a model family of high-resolution transformers for human-centric vision focused on generalization, versatility, and high-fidelity outputs. Our model sizes range from 0.4 to 5 billion parameters, with native 1K resolution and hierarchical variants that support 4K. Sapiens2 substantially improves over its predecessor in both pretraining and post-training. First, to learn features that capture low-level details (for dense prediction) and high-level semantics (for zero-shot or few-label settings), we combine masked image reconstruction with self-distilled contrastive objectives. Our evaluations show that this unified pretraining objective is better suited for a wider range of downstream tasks. Second, along the data axis, we pretrain on a curated dataset of 1 billion high-quality human images and improve the quality and quantity of task annotations. Third, architecturally, we incorporate advances from frontier models that enable longer training schedules with improved stability. Our 4K models adopt windowed attention to reason over longer spatial context and are pretrained with 2K output resolution. Sapiens2 sets a new state-of-the-art and improves over the first generation on pose (+4 mAP), body-part segmentation (+24.3 mIoU), normal estimation (45.6% lower angular error) and extends to new tasks such as pointmap and albedo estimation. Code: https://github.com/facebookresearch/sapiens2
- Abstract(参考訳): サピエンス2は、一般化、汎用性、高忠実度出力に焦点を当てた、人間中心のビジョンのための高分解能トランスフォーマーのモデルファミリーである。
私たちのモデルサイズは0.4から50億のパラメータで、ネイティブの1K解像度と4Kをサポートする階層的なバリエーションがあります。
Sapiens2は、事前訓練と後訓練の両方において、前者よりも大幅に改善されている。
まず,低レベルの細部(濃密な予測のための)と高レベルの意味(ゼロショットや少数ラベルの設定のための)をキャプチャする特徴を学習するために,マスク付き画像再構成と自己拡散したコントラスト的目的を組み合わせる。
我々の評価は、この統合事前学習の目的が、より広範囲の下流タスクに適していることを示している。
第2に、データ軸に沿って、10億の高品質な人間の画像のキュレートされたデータセットを事前訓練し、タスクアノテーションの品質と量を改善する。
第三に、アーキテクチャ面では、安定性を改善したより長いトレーニングスケジュールを可能にするフロンティアモデルの進歩を取り入れています。
我々の4Kモデルは2K出力解像度で事前訓練される。
Sapiens2は新しい最先端をセットし、第1世代のポーズ(+4 mAP)、ボディ部分分割(+24.3 mIoU)、正規推定(45.6%低い角誤差)、ポイントマップやアルベド推定などの新しいタスクに拡張する。
コード:https://github.com/facebookresearch/sapiens2
関連論文リスト
- Towards Scalable Pre-training of Visual Tokenizers for Generation [41.785568766118594]
本稿では、画像テキストのコントラスト、自己監督、再構成の損失を共同で最適化する一貫した視覚トークン化前訓練フレームワークを提案する。
大規模プレトレーニング後, トークン化装置は, 画像ネット上で78.2ゼロショット精度と0.36rFID) と4.1倍のコンバージェンスを実現した。
論文 参考訳(メタデータ) (2025-12-15T18:59:54Z) - Silhouette-based Gait Foundation Model [56.27974816297294]
統一された歩行基盤モデルを構築するには、スケーラビリティと一般化の2つの長年の障壁に対処する必要がある。
私たちは、歩行理解のための最初のスケーラブルでセルフ教師付き事前学習フレームワークであるFoundationGaitを紹介します。
論文 参考訳(メタデータ) (2025-11-30T01:53:41Z) - PriVi: Towards A General-Purpose Video Model For Primate Behavior In The Wild [50.656578456979496]
大規模な霊長類中心のビデオ事前トレーニングデータセットであるPriViを紹介する。
大規模ビデオモデルであるV-JEPAをPriVi上でプレトレーニングし、霊長類固有の表現を学習する。
その結果、霊長類中心の事前学習はデータ効率と一般化を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-11-12T19:27:40Z) - UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections [21.55668740343458]
UP2Youは、非拘束の2D写真から高精細度の3D肖像画を再構築するためのチューニング不要のソリューションだ。
UP2Youの中心は、ポーズ関連フィーチャーアグリゲーションモジュールである。
4D-Dress, PuzzleIOI, in-the-wild captures の実験では、UP2You は幾何学的精度とテクスチャ忠実度の両方において、従来手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-09-29T14:06:00Z) - DICEPTION: A Generalist Diffusion Model for Visual Perceptual Tasks [61.16389024252561]
計算資源と限られた訓練データとの制約下で複数のタスクに対処できる頑健な一般認識モデルを構築した。
我々は、何十億もの画像に事前訓練されたテキスト・画像拡散モデルを活用し、ビジュアル・ジェネラリスト・モデルであるDICEPTIONの導入に成功した。
DICEPTIONは、SOTAシングルタスクスペシャリストモデルに匹敵するパフォーマンスを達成しつつ、様々な知覚タスクに効果的に取り組むことを示す。
論文 参考訳(メタデータ) (2025-02-24T13:51:06Z) - Sapiens: Foundation for Human Vision Models [14.72839332332364]
サピエンス(Sapiens)は、4つの基本的人間中心の視覚タスクのモデル群である。
我々のモデルは1Kの高分解能推論をサポートし、個々のタスクに容易に適応できる。
我々は、人間の画像のキュレートされたデータセット上での自己教師付き事前訓練が、多種多様な人間中心のタスクのパフォーマンスを著しく向上させるのを観察する。
論文 参考訳(メタデータ) (2024-08-22T17:37:27Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z) - Learning Affinity-Aware Upsampling for Deep Image Matting [83.02806488958399]
アップサンプリングにおける学習親和性は、ディープ・ネットワークにおけるペアワイズ・インタラクションを効果的かつ効率的に利用するためのアプローチであることを示す。
特に、コンポジション1kマッチングデータセットの結果は、A2Uが強いベースラインに対してSAD測定値の14%の相対的な改善を達成していることを示している。
最先端のマッティングネットワークと比較すると、モデル複雑度は40%に過ぎず、8%高いパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-11-29T05:09:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。