Fugu-MT 論文翻訳(概要): HorGait: Advancing Gait Recognition with Efficient High-Order Spatial Interactions in LiDAR Point Clouds

論文の概要: HorGait: Advancing Gait Recognition with Efficient High-Order Spatial Interactions in LiDAR Point Clouds

arxiv url: http://arxiv.org/abs/2410.08454v1
Date: Thu, 24 Oct 2024 01:59:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 03:16:22.899451
Title: HorGait: Advancing Gait Recognition with Efficient High-Order Spatial Interactions in LiDAR Point Clouds
Title（参考訳）: HorGait:LiDAR点雲における高次空間相互作用による歩行認識の効率化
Authors: Jiaxing Hao, Yanxi Wang, Zhigang Chang, Hongmin Gao, Zihao Cheng, Chen Wu, Xin Zhao, Peiye Fang, Rachmat Muwardi,
Abstract要約: HorGaitは、LiDARからの3Dポイント雲の平面投影における歩行認識のためのTransformerアーキテクチャを備えたハイブリッドモデルである。 SUSTech1Kデータセット上のTransformerアーキテクチャメソッド間の最先端のパフォーマンスを実現する。
参考スコア（独自算出の注目度）: 8.56443762544299
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Gait recognition is a remote biometric technology that utilizes the dynamic characteristics of human movement to identify individuals even under various extreme lighting conditions. Due to the limitation in spatial perception capability inherent in 2D gait representations, LiDAR can directly capture 3D gait features and represent them as point clouds, reducing environmental and lighting interference in recognition while significantly advancing privacy protection. For complex 3D representations, shallow networks fail to achieve accurate recognition, making vision Transformers the foremost prevalent method. However, the prevalence of dumb patches has limited the widespread use of Transformer architecture in gait recognition. This paper proposes a method named HorGait, which utilizes a hybrid model with a Transformer architecture for gait recognition on the planar projection of 3D point clouds from LiDAR. Specifically, it employs a hybrid model structure called LHM Block to achieve input adaptation, long-range, and high-order spatial interaction of the Transformer architecture. Additionally, it uses large convolutional kernel CNNs to segment the input representation, replacing attention windows to reduce dumb patches. We conducted extensive experiments, and the results show that HorGait achieves state-of-the-art performance among Transformer architecture methods on the SUSTech1K dataset, verifying that the hybrid model can complete the full Transformer process and perform better in point cloud planar projection. The outstanding performance of HorGait offers new insights for the future application of the Transformer architecture in gait recognition.
Abstract（参考訳）: 歩行認識は、人の動きのダイナミックな特性を利用して、様々な極端な照明条件下であっても個人を識別する遠隔バイオメトリック技術である。 2次元歩行表現に固有の空間知覚能力の制限により、LiDARは直接3次元歩行特徴を捉え、それらを点雲として表現することができ、認識における環境や照明の干渉を低減し、プライバシー保護を大幅に向上させることができる。複雑な3D表現では、浅層ネットワークは正確な認識を達成できず、視覚変換器を最上位の手法とする。しかし、ダンプパッチの普及により、歩行認識におけるTransformerアーキテクチャの利用が制限されている。本稿では,LiDARからの3次元点雲の平面投影における歩行認識にTransformerアーキテクチャを用いたハイブリッドモデルを用いたHorGaitを提案する。具体的には、LHM Blockと呼ばれるハイブリッドモデル構造を用いて、Transformerアーキテクチャの入力適応、長距離、高階空間相互作用を実現する。さらに、大きな畳み込みカーネルCNNを使用して入力表現をセグメンテーションし、アテンションウィンドウを置き換え、ダッシュパッチを減らす。本研究では,SUSTech1Kデータセット上でHorGaitがトランスフォーマーアーキテクチャ手法の最先端性能を実現し,ハイブリッドモデルが完全なトランスフォーマー処理を完了し,ポイントクラウド平面投影においてより優れた性能を達成できることを検証した。 HorGaitの優れたパフォーマンスは、歩行認識におけるTransformerアーキテクチャの将来的な応用に対する新たな洞察を提供する。

関連論文リスト

LISTA-Transformer Model Based on Sparse Coding and Attention Mechanism and Its Application in Fault Diagnosis [8.734812529767128]
局所的かつグローバルな特徴協調機構を備えたモデルアーキテクチャを構築するために,視覚変換器を用いたLISTAスパース符号化に基づくスパース変換器を提案する。 CWRUデータセットでは,従来の手法よりも3.3%高い98.5%に達し,既存のTransformerベースの手法よりも一定の優位性を示した。
論文参考訳（メタデータ） (2026-03-04T15:00:07Z)
DeforHMR: Vision Transformer with Deformable Cross-Attention for 3D Human Mesh Recovery [2.1653492349540784]
DeforHMRは、人間のポーズパラメータの予測を強化するために設計された、新しい回帰ベースの単分子HMRフレームワークである。 DeforHMRは、トランスフォーマーデコーダ内の新しいクエリ非依存の変形可能なクロスアテンション機構を活用する。広範に使用されている3D HMRベンチマーク3DPW と RICH 上で,単一フレーム回帰に基づく手法の最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-18T00:46:59Z)
EVT: Efficient View Transformation for Multi-Modal 3D Object Detection [2.9848894641223302]
効率的なビュー変換(EVT)による新しい3次元物体検出法を提案する。 EVTは、アダプティブサンプリングとアダプティブプロジェクション(ASAP)を使用して、3Dサンプリングポイントとアダプティブカーネルを生成する。トランスデコーダ内で得られたマルチモーダルBEV機能を効果的に活用するように設計されている。
論文参考訳（メタデータ） (2024-11-16T06:11:10Z)
Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文参考訳（メタデータ） (2024-09-17T09:30:43Z)
Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。 PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文参考訳（メタデータ） (2024-07-26T06:29:09Z)
CVT-xRF: Contrastive In-Voxel Transformer for 3D Consistent Radiance Fields from Sparse Inputs [65.80187860906115]
スパース入力によるNeRFの性能向上のための新しい手法を提案する。まず, サンプル線が, 3次元空間内の特定のボクセルと交差することを保証するために, ボクセルを用いた放射線サンプリング戦略を採用する。次に、ボクセル内の追加点をランダムにサンプリングし、トランスフォーマーを適用して各線上の他の点の特性を推測し、ボリュームレンダリングに組み込む。
論文参考訳（メタデータ） (2024-03-25T15:56:17Z)
Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文参考訳（メタデータ） (2023-01-06T18:52:12Z)
Blending Anti-Aliasing into Vision Transformer [57.88274087198552]
不連続なパッチ単位のトークン化プロセスは、ジャッジされたアーティファクトをアテンションマップに暗黙的に導入する。エイリアス効果は、離散パターンを使用して高周波または連続的な情報を生成し、区別不能な歪みをもたらす。本稿では,前述の問題を緩和するためのAliasing-Reduction Module(ARM)を提案する。
論文参考訳（メタデータ） (2021-10-28T14:30:02Z)
Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文参考訳（メタデータ） (2021-04-25T08:24:06Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。