論文の概要: SapiensID: Foundation for Human Recognition
- arxiv url: http://arxiv.org/abs/2504.04708v1
- Date: Mon, 07 Apr 2025 03:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:11:17.435988
- Title: SapiensID: Foundation for Human Recognition
- Title(参考訳): SapiensID: 人間の認識のための基盤
- Authors: Minchul Kim, Dingqiang Ye, Yiyang Su, Feng Liu, Xiaoming Liu,
- Abstract要約: SapiensIDは顔と体の分析の統一モデルであり、多様な設定で堅牢なパフォーマンスを実現する。
トレーニングを容易にするために,多彩なポーズとスケールのバリエーションを抽出した大規模データセットであるWebBody4Mを紹介した。
実験により、SapiensIDは様々なボディReIDベンチマークで最先端の結果を達成し、短期シナリオと長期シナリオの両方で特別なモデルよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 15.65725865703615
- License:
- Abstract: Existing human recognition systems often rely on separate, specialized models for face and body analysis, limiting their effectiveness in real-world scenarios where pose, visibility, and context vary widely. This paper introduces SapiensID, a unified model that bridges this gap, achieving robust performance across diverse settings. SapiensID introduces (i) Retina Patch (RP), a dynamic patch generation scheme that adapts to subject scale and ensures consistent tokenization of regions of interest, (ii) a masked recognition model (MRM) that learns from variable token length, and (iii) Semantic Attention Head (SAH), an module that learns pose-invariant representations by pooling features around key body parts. To facilitate training, we introduce WebBody4M, a large-scale dataset capturing diverse poses and scale variations. Extensive experiments demonstrate that SapiensID achieves state-of-the-art results on various body ReID benchmarks, outperforming specialized models in both short-term and long-term scenarios while remaining competitive with dedicated face recognition systems. Furthermore, SapiensID establishes a strong baseline for the newly introduced challenge of Cross Pose-Scale ReID, demonstrating its ability to generalize to complex, real-world conditions.
- Abstract(参考訳): 既存の人間の認識システムは、顔と身体の分析のための別個の特殊なモデルに依存しており、ポーズ、可視性、コンテキストが多岐にわたる現実のシナリオにおいて、その有効性を制限している。
本稿では,このギャップを埋める統一モデルであるSapiensIDを紹介し,多様な設定で堅牢な性能を実現する。
SapiensID導入
i) Retina Patch(RP)は、被写体スケールに適応し、興味のある領域の一貫したトークン化を保証する動的パッチ生成スキームである。
(II)可変トークン長から学習するマスク認識モデル(MRM)
セマンティックアテンションヘッド(Semantic Attention Head、SAH)は、キーボディ部分の周りで特徴をプールすることで、ポーズ不変表現を学習するモジュールである。
トレーニングを容易にするために,多彩なポーズとスケールのバリエーションを抽出した大規模データセットであるWebBody4Mを紹介した。
SapiensIDは様々なボディReIDベンチマークで最先端の結果を達成し、顔認証システムと競合しながら、短期シナリオと長期シナリオの両方で特殊モデルを上回る性能を発揮する。
さらに、SapiensIDはCross Pose-Scale ReIDという新しいチャレンジの強力なベースラインを確立し、複雑な実世界の条件に一般化する能力を示している。
関連論文リスト
- Unconstrained Body Recognition at Altitude and Range: Comparing Four Approaches [0.0]
我々は、時間とともに安定している永続的な身体形状の特徴を学習することに集中する。
視覚変換器(ViT)とSwin-ViTモデルに基づく身体識別モデルを提案する。
すべてのモデルは、9つのデータベースにまたがる約5Kアイデンティティの190万以上の画像の大規模で多様なデータセットでトレーニングされている。
論文 参考訳(メタデータ) (2025-02-10T23:49:06Z) - Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification [28.794827024749658]
Pose-dIVEは、スパースで表現不足な人間のポーズとカメラ視点の例をトレーニングデータに組み込んだ、新しいデータ拡張アプローチである。
我々の目標は、トレーニングデータセットを拡張して、既存のRe-IDモデルで人間のポーズやカメラ視点の変化に偏らない特徴を学習できるようにすることである。
論文 参考訳(メタデータ) (2024-06-23T07:48:21Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Robust Ensemble Person Re-Identification via Orthogonal Fusion with Occlusion Handling [4.431087385310259]
排除は、個人再識別(ReID)における大きな課題の1つとして残されている。
本稿では,CNN と Transformer アーキテクチャを併用し,ロバストな特徴表現を生成する深層アンサンブルモデルを提案する。
論文 参考訳(メタデータ) (2024-03-29T18:38:59Z) - Shape-Erased Feature Learning for Visible-Infrared Person
Re-Identification [90.39454748065558]
体型は、VI-ReIDにとって重要なモダリティシェードの1つである。
本稿では,2つの部分空間におけるモダリティ共有特徴を関連づける形状学習パラダイムを提案する。
SYSU-MM01, RegDB, HITSZ-VCMデータセットを用いた実験により, 本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-09T10:22:10Z) - Style-Hallucinated Dual Consistency Learning: A Unified Framework for
Visual Domain Generalization [113.03189252044773]
本稿では,様々な視覚的タスクにおけるドメインシフトを処理するための統合フレームワークであるStyle-HAllucinated Dual consistEncy Learning (SHADE)を提案する。
我々の汎用SHADEは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、様々な視覚認識タスクにおける一般化を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-12-18T11:42:51Z) - Learning Diversified Feature Representations for Facial Expression
Recognition in the Wild [97.14064057840089]
本稿では,CNN層が抽出した顔表情認識アーキテクチャの特徴を多様化する機構を提案する。
AffectNet,FER+,RAF-DBの3つの顔表情認識実験の結果,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-10-17T19:25:28Z) - LEAP: Learning Articulated Occupancy of People [56.35797895609303]
我々は、人体の新たな神経占有表現であるleap(learning articulated occupancy of people)を紹介する。
骨変換の集合と空間内の問合せ点が与えられると、leapはまずクエリポイントを学習線形ブレンドスキン(lbs)関数を介して正準空間にマッピングする。
LEAPは、正則空間における正確な同一性およびポーズ依存変形をモデル化する占有ネットワークを介して、占有値を効率的にクエリする。
論文 参考訳(メタデータ) (2021-04-14T13:41:56Z) - Pose Invariant Person Re-Identification using Robust Pose-transformation
GAN [11.338815177557645]
人物再識別(re-ID)は、興味ある人物の単一の事例から、画像ギャラリーから人物の画像を検索することを目的としている。
いくつかの進歩にもかかわらず、ロバストな人物再同定のための識別的アイデンティティ感と視点不変特徴の学習は、人間のポーズの変化が大きいため、大きな課題である。
本稿では,ポーズ回帰と特徴融合を組み合わせた生成逆数ネットワークの画像生成機能を利用して,ポーズ不変な特徴学習を実現するre-IDパイプラインを提案する。
論文 参考訳(メタデータ) (2021-04-11T15:47:03Z) - View-Invariant Gait Recognition with Attentive Recurrent Learning of
Partial Representations [27.33579145744285]
本稿では,まず,フレームレベルの畳み込み特徴から歩行畳み込みエネルギーマップ(GCEM)を抽出するネットワークを提案する。
次に、GCEMの分割されたビンから学ぶために双方向ニューラルネットワークを採用し、学習された部分的リカレント表現の関係を利用する。
提案手法は2つの大規模CASIA-BとOU-Mの歩行データセットで広範囲に検証されている。
論文 参考訳(メタデータ) (2020-10-18T20:20:43Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。