論文の概要: Mesh-Gait: A Unified Framework for Gait Recognition Through Multi-Modal Representation Learning from 2D Silhouettes
- arxiv url: http://arxiv.org/abs/2510.10406v1
- Date: Sun, 12 Oct 2025 01:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.923465
- Title: Mesh-Gait: A Unified Framework for Gait Recognition Through Multi-Modal Representation Learning from 2D Silhouettes
- Title(参考訳): Mesh-Gait:2Dシルエットからのマルチモーダル表現学習による歩行認識のための統一フレームワーク
- Authors: Zhao-Yang Wang, Jieneng Chen, Jiang Liu, Yuxiang Guo, Rama Chellappa,
- Abstract要約: 我々は、新しいエンドツーエンドの歩行認識フレームワークであるMesh-Gaitを紹介する。
2Dシルエットから3D表現を直接再構成する。
Mesh-Gaitは最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 36.964703204465664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition, a fundamental biometric technology, leverages unique walking patterns for individual identification, typically using 2D representations such as silhouettes or skeletons. However, these methods often struggle with viewpoint variations, occlusions, and noise. Multi-modal approaches that incorporate 3D body shape information offer improved robustness but are computationally expensive, limiting their feasibility for real-time applications. To address these challenges, we introduce Mesh-Gait, a novel end-to-end multi-modal gait recognition framework that directly reconstructs 3D representations from 2D silhouettes, effectively combining the strengths of both modalities. Compared to existing methods, directly learning 3D features from 3D joints or meshes is complex and difficult to fuse with silhouette-based gait features. To overcome this, Mesh-Gait reconstructs 3D heatmaps as an intermediate representation, enabling the model to effectively capture 3D geometric information while maintaining simplicity and computational efficiency. During training, the intermediate 3D heatmaps are gradually reconstructed and become increasingly accurate under supervised learning, where the loss is calculated between the reconstructed 3D joints, virtual markers, and 3D meshes and their corresponding ground truth, ensuring precise spatial alignment and consistent 3D structure. Mesh-Gait extracts discriminative features from both silhouettes and reconstructed 3D heatmaps in a computationally efficient manner. This design enables the model to capture spatial and structural gait characteristics while avoiding the heavy overhead of direct 3D reconstruction from RGB videos, allowing the network to focus on motion dynamics rather than irrelevant visual details. Extensive experiments demonstrate that Mesh-Gait achieves state-of-the-art accuracy. The code will be released upon acceptance of the paper.
- Abstract(参考訳): 歩行認識は基本的な生体計測技術であり、シルエットや骨格のような2D表現を用いて、個々の識別にユニークな歩行パターンを利用する。
しかし、これらの手法はしばしば視点のバリエーション、閉塞、ノイズに悩まされる。
3次元体の形状情報を組み込んだマルチモーダルアプローチは、堅牢性の向上を提供するが、計算コストが高く、リアルタイムアプリケーションへの実現可能性を制限する。
これらの課題に対処するために,2次元シルエットから直接3次元表現を再構成し,両モードの強みを効果的に組み合わせた,新しいエンドツーエンドマルチモーダル歩行認識フレームワークであるMesh-Gaitを導入する。
既存の手法と比較して、3Dジョイントやメッシュから直接3D特徴を学習することは複雑で、シルエットベースの歩行特徴と融合するのは難しい。
これを解決するため、Mesh-Gaitは3Dヒートマップを中間表現として再構築し、単純さと計算効率を保ちながら、3Dの幾何学的情報を効果的に捉えることができる。
トレーニング中、中間の3Dヒートマップは徐々に再構築され、教師あり学習において精度が向上し、再構成された3D関節、仮想マーカー、および3Dメッシュとその対応する接地真実の間の損失が計算され、正確な空間的アライメントと一貫した3D構造が確保される。
Mesh-Gaitは、シルエットと再構成された3Dヒートマップの両方から、計算的に効率的に識別的特徴を抽出する。
この設計により、RGBビデオからの直接3D再構成のオーバーヘッドを回避しつつ、空間的および構造的歩行特性を捉えることができ、ネットワークは無関係な視覚的詳細ではなく、運動力学に集中することができる。
大規模な実験は、Mesh-Gaitが最先端の精度を達成することを示した。
コードは論文の受理時に公開される。
関連論文リスト
- TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - 3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.749406324648861]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。
我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-03-08T11:09:46Z) - Cross-Dimensional Refined Learning for Real-Time 3D Visual Perception
from Monocular Video [2.2299983745857896]
本稿では3次元シーンの幾何学的構造と意味的ラベルを協調的に知覚する新しいリアルタイム能動的学習法を提案する。
本稿では,3次元メッシュと3次元セマンティックラベリングの両方をリアルタイムに抽出する,エンドツーエンドのクロスディメンテーションニューラルネットワーク(CDRNet)を提案する。
論文 参考訳(メタデータ) (2023-03-16T11:53:29Z) - Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud
Pre-training [65.75399500494343]
Masked Autoencoders (MAE) は、2Dおよび3Dコンピュータビジョンのための自己教師型学習において有望な性能を示した。
自己監督型3次元点雲事前学習のための2D-3DジョイントMAEフレームワークであるJoint-MAEを提案する。
論文 参考訳(メタデータ) (2023-02-27T17:56:18Z) - RiCS: A 2D Self-Occlusion Map for Harmonizing Volumetric Objects [68.85305626324694]
カメラ空間における光マーチング (RiCS) は、3次元における前景物体の自己閉塞を2次元の自己閉塞マップに表現する新しい手法である。
表現マップは画像の質を高めるだけでなく,時間的コヒーレントな複雑な影効果をモデル化できることを示す。
論文 参考訳(メタデータ) (2022-05-14T05:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。