論文の概要: HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections
- arxiv url: http://arxiv.org/abs/2410.08454v2
- Date: Thu, 24 Oct 2024 01:59:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:16:22.896424
- Title: HorGait: A Hybrid Model for Accurate Gait Recognition in LiDAR Point Cloud Planar Projections
- Title(参考訳): HorGait: LiDARポイントクラウド平面投影における正確な歩行認識のためのハイブリッドモデル
- Authors: Jiaxing Hao, Yanxi Wang, Zhigang Chang, Hongmin Gao, Zihao Cheng, Chen Wu, Xin Zhao, Peiye Fang, Rachmat Muwardi,
- Abstract要約: HorGaitは、LiDARからの3Dポイント雲の平面投影における歩行認識のためのTransformerアーキテクチャを備えたハイブリッドモデルである。
SUSTech1Kデータセット上のTransformerアーキテクチャメソッド間の最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 8.56443762544299
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is a remote biometric technology that utilizes the dynamic characteristics of human movement to identify individuals even under various extreme lighting conditions. Due to the limitation in spatial perception capability inherent in 2D gait representations, LiDAR can directly capture 3D gait features and represent them as point clouds, reducing environmental and lighting interference in recognition while significantly advancing privacy protection. For complex 3D representations, shallow networks fail to achieve accurate recognition, making vision Transformers the foremost prevalent method. However, the prevalence of dumb patches has limited the widespread use of Transformer architecture in gait recognition. This paper proposes a method named HorGait, which utilizes a hybrid model with a Transformer architecture for gait recognition on the planar projection of 3D point clouds from LiDAR. Specifically, it employs a hybrid model structure called LHM Block to achieve input adaptation, long-range, and high-order spatial interaction of the Transformer architecture. Additionally, it uses large convolutional kernel CNNs to segment the input representation, replacing attention windows to reduce dumb patches. We conducted extensive experiments, and the results show that HorGait achieves state-of-the-art performance among Transformer architecture methods on the SUSTech1K dataset, verifying that the hybrid model can complete the full Transformer process and perform better in point cloud planar projection. The outstanding performance of HorGait offers new insights for the future application of the Transformer architecture in gait recognition.
- Abstract(参考訳): 歩行認識は、人の動きのダイナミックな特性を利用して、様々な極端な照明条件下であっても個人を識別する遠隔バイオメトリック技術である。
2次元歩行表現に固有の空間知覚能力の制限により、LiDARは直接3次元歩行特徴を捉え、それらを点雲として表現することができ、認識における環境や照明の干渉を低減し、プライバシー保護を大幅に向上させることができる。
複雑な3D表現では、浅層ネットワークは正確な認識を達成できず、視覚変換器を最上位の手法とする。
しかし、ダンプパッチの普及により、歩行認識におけるTransformerアーキテクチャの利用が制限されている。
本稿では,LiDARからの3次元点雲の平面投影における歩行認識にTransformerアーキテクチャを用いたハイブリッドモデルを用いたHorGaitを提案する。
具体的には、LHM Blockと呼ばれるハイブリッドモデル構造を用いて、Transformerアーキテクチャの入力適応、長距離、高階空間相互作用を実現する。
さらに、大きな畳み込みカーネルCNNを使用して入力表現をセグメンテーションし、アテンションウィンドウを置き換え、ダッシュパッチを減らす。
本研究では,SUSTech1Kデータセット上でHorGaitがトランスフォーマーアーキテクチャ手法の最先端性能を実現し,ハイブリッドモデルが完全なトランスフォーマー処理を完了し,ポイントクラウド平面投影においてより優れた性能を達成できることを検証した。
HorGaitの優れたパフォーマンスは、歩行認識におけるTransformerアーキテクチャの将来的な応用に対する新たな洞察を提供する。
関連論文リスト
- Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Exploring Deep Models for Practical Gait Recognition [11.185716724976414]
我々は、最先端の屋外歩行認識のための深層モデルの構築方法について、統一的な視点を示す。
具体的には、浅い歩行モデルのステレオタイプに挑戦し、明示的な時間的モデリングの優位性を実証する。
提案されたCNNベースのDeepGaitV2シリーズとTransformerベースのSwinGaitシリーズは、Gait3DとGREWで大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-03-06T17:19:28Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。