論文の概要: HorGait: Advancing Gait Recognition with Efficient High-Order Spatial Interactions in LiDAR Point Clouds
- arxiv url: http://arxiv.org/abs/2410.08454v1
- Date: Fri, 11 Oct 2024 02:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-14 13:32:03.740954
- Title: HorGait: Advancing Gait Recognition with Efficient High-Order Spatial Interactions in LiDAR Point Clouds
- Title(参考訳): HorGait:LiDAR点雲における高次空間相互作用による歩行認識の効率化
- Authors: Jiaxing Hao, Yanxi Wang, Zhigang Chang, Hongmin Gao, Zihao Cheng, Chen Wu, Xin Zhao, Peiye Fang, Rachmat Muwardi,
- Abstract要約: HorGaitは、LiDARからの3Dポイント雲の平面投影における歩行認識のためのTransformerアーキテクチャを備えたハイブリッドモデルである。
SUSTech1Kデータセット上のTransformerアーキテクチャメソッド間の最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 8.56443762544299
- License:
- Abstract: Gait recognition is a remote biometric technology that utilizes the dynamic characteristics of human movement to identify individuals even under various extreme lighting conditions. Due to the limitation in spatial perception capability inherent in 2D gait representations, LiDAR can directly capture 3D gait features and represent them as point clouds, reducing environmental and lighting interference in recognition while significantly advancing privacy protection. For complex 3D representations, shallow networks fail to achieve accurate recognition, making vision Transformers the foremost prevalent method. However, the prevalence of dumb patches has limited the widespread use of Transformer architecture in gait recognition. This paper proposes a method named HorGait, which utilizes a hybrid model with a Transformer architecture for gait recognition on the planar projection of 3D point clouds from LiDAR. Specifically, it employs a hybrid model structure called LHM Block to achieve input adaptation, long-range, and high-order spatial interaction of the Transformer architecture. Additionally, it uses large convolutional kernel CNNs to segment the input representation, replacing attention windows to reduce dumb patches. We conducted extensive experiments, and the results show that HorGait achieves state-of-the-art performance among Transformer architecture methods on the SUSTech1K dataset, verifying that the hybrid model can complete the full Transformer process and perform better in point cloud planar projection. The outstanding performance of HorGait offers new insights for the future application of the Transformer architecture in gait recognition.
- Abstract(参考訳): 歩行認識は、人の動きのダイナミックな特性を利用して、様々な極端な照明条件下であっても個人を識別する遠隔バイオメトリック技術である。
2次元歩行表現に固有の空間知覚能力の制限により、LiDARは直接3次元歩行特徴を捉え、それらを点雲として表現することができ、認識における環境や照明の干渉を低減し、プライバシー保護を大幅に向上させることができる。
複雑な3D表現では、浅層ネットワークは正確な認識を達成できず、視覚変換器を最上位の手法とする。
しかし、ダンプパッチの普及により、歩行認識におけるTransformerアーキテクチャの利用が制限されている。
本稿では,LiDARからの3次元点雲の平面投影における歩行認識にTransformerアーキテクチャを用いたハイブリッドモデルを用いたHorGaitを提案する。
具体的には、LHM Blockと呼ばれるハイブリッドモデル構造を用いて、Transformerアーキテクチャの入力適応、長距離、高階空間相互作用を実現する。
さらに、大きな畳み込みカーネルCNNを使用して入力表現をセグメンテーションし、アテンションウィンドウを置き換え、ダッシュパッチを減らす。
本研究では,SUSTech1Kデータセット上でHorGaitがトランスフォーマーアーキテクチャ手法の最先端性能を実現し,ハイブリッドモデルが完全なトランスフォーマー処理を完了し,ポイントクラウド平面投影においてより優れた性能を達成できることを検証した。
HorGaitの優れたパフォーマンスは、歩行認識におけるTransformerアーキテクチャの将来的な応用に対する新たな洞察を提供する。
関連論文リスト
- CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。
まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。
次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文 参考訳(メタデータ) (2024-03-25T15:56:17Z) - Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers [34.42710399235461]
視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
論文 参考訳(メタデータ) (2023-03-26T20:50:58Z) - Exploring Deep Models for Practical Gait Recognition [11.185716724976414]
我々は、最先端の屋外歩行認識のための深層モデルの構築方法について、統一的な視点を示す。
具体的には、浅い歩行モデルのステレオタイプに挑戦し、明示的な時間的モデリングの優位性を実証する。
提案されたCNNベースのDeepGaitV2シリーズとTransformerベースのSwinGaitシリーズは、Gait3DとGREWで大幅に性能が向上した。
論文 参考訳(メタデータ) (2023-03-06T17:19:28Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Defect Transformer: An Efficient Hybrid Transformer Architecture for
Surface Defect Detection [2.0999222360659604]
表面欠陥検出のための効率的なハイブリッドトランスアーキテクチャであるDefect Transformer (DefT)を提案する。
DefTはCNNとTransformerを統一モデルに組み込んで、局所的および非局所的関係を協調的にキャプチャする。
3つのデータセットの実験は、他のCNNやトランスフォーマーベースのネットワークと比較して、我々の手法の優位性と効率性を実証している。
論文 参考訳(メタデータ) (2022-07-17T23:37:48Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。
エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。
本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文 参考訳(メタデータ) (2021-10-28T14:30:02Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。