論文の概要: On Model and Data Scaling for Skeleton-based Self-Supervised Gait Recognition
- arxiv url: http://arxiv.org/abs/2504.07598v1
- Date: Thu, 10 Apr 2025 09:51:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:48.401416
- Title: On Model and Data Scaling for Skeleton-based Self-Supervised Gait Recognition
- Title(参考訳): 骨格に基づく自己監督歩行認識のためのモデルとデータスケーリングについて
- Authors: Adrian Cosma, Andy Cǎtrunǎ, Emilian Rǎdoi,
- Abstract要約: ビデオストリームからの歩行認識は、コンピュータビジョンバイオメトリックスにおいて難しい問題である。
近年の自己教師型事前訓練の進歩は、堅牢な歩行認識モデルの開発につながっている。
骨格に基づく自己教師あり歩行認識における最初の実験的検討を行った。
- 参考スコア(独自算出の注目度): 3.6390165502400875
- License:
- Abstract: Gait recognition from video streams is a challenging problem in computer vision biometrics due to the subtle differences between gaits and numerous confounding factors. Recent advancements in self-supervised pretraining have led to the development of robust gait recognition models that are invariant to walking covariates. While neural scaling laws have transformed model development in other domains by linking performance to data, model size, and compute, their applicability to gait remains unexplored. In this work, we conduct the first empirical study scaling on skeleton-based self-supervised gait recognition to quantify the effect of data quantity, model size and compute on downstream gait recognition performance. We pretrain multiple variants of GaitPT - a transformer-based architecture - on a dataset of 2.7 million walking sequences collected in the wild. We evaluate zero-shot performance across four benchmark datasets to derive scaling laws for data, model size, and compute. Our findings demonstrate predictable power-law improvements in performance with increased scale and confirm that data and compute scaling significantly influence downstream accuracy. We further isolate architectural contributions by comparing GaitPT with GaitFormer under controlled compute budgets. These results provide practical insights into resource allocation and performance estimation for real-world gait recognition systems.
- Abstract(参考訳): 映像ストリームからの歩行認識は、歩幅と多数の起伏要因の微妙な違いにより、コンピュータビジョンバイオメトリックスにおいて難しい問題である。
近年の自己教師型事前訓練の進歩は、歩行共変量に不変な頑健な歩行認識モデルの開発につながっている。
ニューラルスケーリング法則は、パフォーマンスをデータ、モデルサイズ、計算にリンクすることで、他のドメインでのモデル開発を変革した。
本研究では,データ量,モデルサイズ,計算結果が下流歩行認識性能に与える影響を定量化するために,骨格に基づく自己教師型歩行認識に関する最初の実証的研究を行う。
我々は、トランスフォーマーベースのアーキテクチャであるGaitPTの複数の変種を、野生で収集された270万のウォーキングシーケンスのデータセットで事前訓練する。
4つのベンチマークデータセットでゼロショット性能を評価し、データ、モデルサイズ、計算のスケーリング法則を導出する。
以上の結果から,大規模化による性能改善の予測可能性を示すとともに,データと計算スケールが下流の精度に大きく影響していることが確認された。
制御された計算予算の下でGaitPTとGaitFormerを比較することで、アーキテクチャのコントリビューションをさらに分離する。
これらの結果は,実世界の歩行認識システムにおける資源配分と性能推定に関する実践的な知見を提供する。
関連論文リスト
- SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Data Augmentation for Sparse Multidimensional Learning Performance Data Using Generative AI [17.242331892899543]
学習パフォーマンスデータは、適応学習における正しい解答や問題解決の試みを記述している。
学習性能データは、適応的なアイテム選択のため、ほとんどの実世界のアプリケーションでは、非常にスパースな(80%(sim)90%の欠落)傾向にある。
本稿では,学習者のデータの分散性に対処するために,学習者のデータを拡張するための体系的フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-24T00:25:07Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。
IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。
ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文 参考訳(メタデータ) (2024-07-22T15:35:09Z) - The Paradox of Motion: Evidence for Spurious Correlations in
Skeleton-based Gait Recognition Models [4.089889918897877]
本研究は、視覚に基づく歩行認識が主に動きパターンに依存しているという一般的な仮定に挑戦する。
高さ情報の除去が顕著な性能低下につながることを比較分析により示す。
本研究では,時間的情報を無視して個々のポーズを処理する空間変換器モデルを提案する。
論文 参考訳(メタデータ) (2024-02-13T09:33:12Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Texture-Based Input Feature Selection for Action Recognition [3.9596068699962323]
本稿では,ドメインの差分を増大させる入力におけるタスク関連コンテンツを決定する新しい手法を提案する。
提案モデルは,HMDB-51データセットとPenn Actionデータセットにおいて,既存の行動認識モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-28T23:56:31Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。