論文の概要: Walking Further: Semantic-aware Multimodal Gait Recognition Under Long-Range Conditions
- arxiv url: http://arxiv.org/abs/2603.14189v1
- Date: Sun, 15 Mar 2026 02:32:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.660687
- Title: Walking Further: Semantic-aware Multimodal Gait Recognition Under Long-Range Conditions
- Title(参考訳): 歩行をさらに進める:長期条件下での意味認識型マルチモーダル歩行認識
- Authors: Zhiyang Lu, Wen Jiang, Tianren Wu, Zhichao Wang, Changwang Zhang, Siqi Shen, Ming Cheng,
- Abstract要約: We present textbfLRGait, the first LiDAR-Camera multimodal benchmark for robust long-range gait recognition。
また,長距離マルチモーダル歩行認識に適したエンドツーエンドフレームワークである textbfEMGaitNet を提案する。
- 参考スコア(独自算出の注目度): 27.59550056623308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is an emerging biometric technology that enables non-intrusive and hard-to-spoof human identification. However, most existing methods are confined to short-range, unimodal settings and fail to generalize to long-range and cross-distance scenarios under real-world conditions. To address this gap, we present \textbf{LRGait}, the first LiDAR-Camera multimodal benchmark designed for robust long-range gait recognition across diverse outdoor distances and environments. We further propose \textbf{EMGaitNet}, an end-to-end framework tailored for long-range multimodal gait recognition. To bridge the modality gap between RGB images and point clouds, we introduce a semantic-guided fusion pipeline. A CLIP-based Semantic Mining (SeMi) module first extracts human body-part-aware semantic cues, which are then employed to align 2D and 3D features via a Semantic-Guided Alignment (SGA) module within a unified embedding space. A Symmetric Cross-Attention Fusion (SCAF) module hierarchically integrates visual contours and 3D geometric features, and a Spatio-Temporal (ST) module captures global gait dynamics. Extensive experiments on various gait datasets validate the effectiveness of our method.
- Abstract(参考訳): 歩行認識は、非侵入的で難解な人間の識別を可能にする新しい生体認証技術である。
しかし、既存のほとんどの手法は短距離・非モード設定に限られており、現実の条件下での長距離・長距離のシナリオに一般化できない。
このギャップに対処するために、様々な屋外距離と環境にまたがる堅牢な長距離歩行認識のために設計された最初のLiDAR-Cameraマルチモーダルベンチマークである、textbf{LRGait} を提示する。
さらに,長距離マルチモーダル歩行認識に適したエンドツーエンドフレームワークである‘textbf{EMGaitNet} を提案する。
RGB画像と点雲のモダリティギャップを埋めるために,意味誘導型融合パイプラインを導入する。
CLIPベースのセマンティックマイニング(Semantic Mining/セマンティックマイニング)モジュールは、まず人体を意識したセマンティックキューを抽出し、セマンティックガイドアライメント(SGA)モジュールを介して2Dと3Dの機能を統合された埋め込み空間内に配置する。
Symmetric Cross-Attention Fusion (SCAF)モジュールは、視覚輪郭と3次元幾何学的特徴を階層的に統合し、Spatio-Temporal (ST)モジュールはグローバルな歩行ダイナミクスをキャプチャする。
様々な歩行データセットの大規模な実験により,本手法の有効性が検証された。
関連論文リスト
- RangeSAM: Leveraging Visual Foundation Models for Range-View repesented LiDAR segmentation [6.513648249086729]
本稿では,SAM2を3次元セグメンテーションに適応させる最初のレンジビューフレームワークを提案する。
提案手法は,2D中心パイプラインの速度,スケーラビリティ,デプロイメントの単純さを生かしながら,セマンティックKITTI上での競合性能を実現する。
論文 参考訳(メタデータ) (2025-09-19T11:33:10Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文 参考訳(メタデータ) (2025-04-22T13:33:26Z) - econSG: Efficient and Multi-view Consistent Open-Vocabulary 3D Semantic Gaussians [56.85804719947]
3DGSを用いたオープン語彙セマンティックセマンティックセグメンテーションのためのeconSGを提案する。
筆者らのeconSGは,既存手法と比較して,4つのベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2025-04-08T13:12:31Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - SeMv-3D: Towards Concurrency of Semantic and Multi-view Consistency in General Text-to-3D Generation [122.47961178994456]
SeMv-3Dは、GT23D生成におけるセマンティックアライメントとマルチビュー一貫性を協調的に強化する新しいフレームワークである。
本稿では,TPL(Triplane Prior Learning)について紹介する。
我々はまた、一貫した任意のビュー合成を可能にする、三葉飛行機(SAT)における事前ベースセマンティックアライニング(Semantic Aligning)を提案する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Camera-based 3D Semantic Scene Completion with Sparse Guidance Network [18.415854443539786]
本稿では,SGNと呼ばれるカメラベースのセマンティックシーン補完フレームワークを提案する。
SGNは空間幾何学的手がかりに基づいてセマンティック・アウェア・シード・ボクセルからシーン全体へのセマンティクスの伝播を行う。
実験の結果,既存の最先端手法よりもSGNの方が優れていることが示された。
論文 参考訳(メタデータ) (2023-12-10T04:17:27Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。