論文の概要: MMGait: Towards Multi-Modal Gait Recognition
- arxiv url: http://arxiv.org/abs/2604.15979v1
- Date: Fri, 17 Apr 2026 11:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-20 22:00:19.902551
- Title: MMGait: Towards Multi-Modal Gait Recognition
- Title(参考訳): MMGait:マルチモーダル歩行認識を目指して
- Authors: Chenye Wang, Qingyuan Cai, Saihui Hou, Aoqi Li, Yongzhen Huang,
- Abstract要約: 5つの異種センサからのデータを統合する総合的マルチモーダル・ゲイト・ベンチマークであるMMGaitを提案する。
MMGaitは、12のモダリティと725の被験者からの334,060のシーケンスを含んでおり、幾何学、測光、運動ドメインの体系的な探索を可能にしている。
我々は,上記の3つの歩行認識パラダイムを1つのモデルに統一することを目的とした,新しいタスクであるOmni Multi-Modal Gait Recognitionを導入する。
- 参考スコア(独自算出の注目度): 31.890370751419425
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gait recognition has emerged as a powerful biometric technique for identifying individuals at a distance without requiring user cooperation. Most existing methods focus primarily on RGB-derived modalities, which fall short in real-world scenarios requiring multi-modal collaboration and cross-modal retrieval. To overcome these challenges, we present MMGait, a comprehensive multi-modal gait benchmark integrating data from five heterogeneous sensors, including an RGB camera, a depth camera, an infrared camera, a LiDAR scanner, and a 4D Radar system. MMGait contains twelve modalities and 334,060 sequences from 725 subjects, enabling systematic exploration across geometric, photometric, and motion domains. Based on MMGait, we conduct extensive evaluations on single-modal, cross-modal, and multi-modal paradigms to analyze modality robustness and complementarity. Furthermore, we introduce a new task, Omni Multi-Modal Gait Recognition, which aims to unify the above three gait recognition paradigms within a single model. We also propose a simple yet powerful baseline, OmniGait, which learns a shared embedding space across diverse modalities and achieves promising recognition performance. The MMGait benchmark, codebase, and pretrained checkpoints are publicly available at https://github.com/BNU-IVC/MMGait.
- Abstract(参考訳): 歩行認識は、ユーザの協力を必要とせず、遠くにいる個人を識別するための強力な生体計測技術として登場した。
既存の手法のほとんどはRGB由来のモダリティに重点を置いており、マルチモーダルコラボレーションとクロスモーダル検索を必要とする現実のシナリオでは不足している。
これらの課題を克服するために,RGBカメラ,深度カメラ,赤外線カメラ,LiDARスキャナ,4Dレーダシステムを含む5つの異種センサからのデータを統合する,総合的なマルチモーダル歩行ベンチマークであるMMGaitを提案する。
MMGaitは、12のモダリティと725の被験者からの334,060のシーケンスを含んでおり、幾何学、測光、運動ドメインの体系的な探索を可能にしている。
MMGaitに基づいて,モダリティの堅牢性と相補性を分析するために,単一モード,クロスモーダル,マルチモーダルのパラダイムを広範囲に評価する。
さらに,上述の3つの歩行認識パラダイムを1つのモデルに統一することを目的とした,新しいタスクであるOmni Multi-Modal Gait Recognitionを導入する。
また,多様なモダリティにまたがる共有埋め込み空間を学習し,有望な認識性能を実現する,シンプルで強力なベースラインであるOmniGaitを提案する。
MMGaitベンチマーク、コードベース、事前訓練されたチェックポイントはhttps://github.com/BNU-IVC/MMGaitで公開されている。
関連論文リスト
- Multi-modal Multi-platform Person Re-Identification: Benchmark and Method [58.59888754340054]
MP-ReIDは、マルチモダリティとマルチプラットフォームReIDに特化した新しいデータセットである。
このベンチマークは、RGB、赤外線、サーマルイメージングなど、さまざまなモードで1,930のIDからデータをコンパイルする。
クロスモダリティとクロスプラットフォームシナリオに適した,特定設計のプロンプトを備えたフレームワークであるUni-Prompt ReIDを紹介する。
論文 参考訳(メタデータ) (2025-03-21T12:27:49Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
我々はGPSRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ネットワークを提案する。
マルチビューRGB画像とLiDAR点雲を時間的に統一されたシーン表現とMultimodal Gaussian Splattingを明示的に組み合わせている。
提案手法は,多視点カメラとLiDARの相補的強度を有効活用し,ソタ位置認識性能を向上し,ソタ位置認識性能を向上する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - When Pedestrian Detection Meets Multi-Modal Learning: Generalist Model and Benchmark Dataset [40.24765100535353]
本稿では,マルチモーダル知覚のための新しい一般化モデルであるMMPedestronを紹介する。
提案手法は,モーダル表現と融合のための統一エンコーダと,歩行者検出のための汎用ヘッドを備える。
マルチモーダルジョイントトレーニングでは、幅広い歩行者検出ベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-07-14T09:16:49Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Single-Model and Any-Modality for Video Object Tracking [85.83753760853142]
任意のモダリティに対して単一のパラメータセットの統一トラッカーUn-Trackを導入する。
任意のモダリティを扱うために,低ランク因子化および再構成手法を用いて,それらの共通潜時空間を学習する。
我々のUn-Trackは、+6.6M(93M以上)のパラメータを持つ+2.14(21.50以上)のGFLOPを導入することで、DepthTrackデータセット上で、+8.1絶対Fスコアゲインを達成する。
論文 参考訳(メタデータ) (2023-11-27T14:17:41Z) - LCPR: A Multi-Scale Attention-Based LiDAR-Camera Fusion Network for
Place Recognition [11.206532393178385]
本稿では,マルチモーダル位置認識のための新しいニューラルネットワークLCPRを提案する。
位置認識性能を向上させるために,マルチビューカメラとLiDARデータを効果的に利用することができる。
論文 参考訳(メタデータ) (2023-11-06T15:39:48Z) - Egocentric RGB+Depth Action Recognition in Industry-Like Settings [50.38638300332429]
本研究は,産業的な環境下での自我中心のRGBとDepthモダリティからの行動の認識に焦点を当てる。
我々のフレームワークは、RGBとDepthの両方のモダリティを効果的に符号化する3DビデオSWIN変換器に基づいている。
また,ICIAP 2023におけるマルチモーダル動作認識チャレンジにおいて,本手法が第1位を確保した。
論文 参考訳(メタデータ) (2023-09-25T08:56:22Z) - MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human
Activity Recognition [33.94582546667864]
マルチモーダルセンサは、人間の活動認識のための正確な機械学習方法を開発するために補完情報を提供する。
本稿では,RGBカメラと慣性計測ユニット(IMU)を用いたHARのための効率的なマルチモーダルニューラルネットワークアーキテクチャを提案する。
3つの確立された公開データセットを用いて,HARにおけるMTSAの有効性と効率を評価した。
論文 参考訳(メタデータ) (2022-10-14T08:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。