論文の概要: Combo-Gait: Unified Transformer Framework for Multi-Modal Gait Recognition and Attribute Analysis
- arxiv url: http://arxiv.org/abs/2510.10417v1
- Date: Sun, 12 Oct 2025 02:56:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.930401
- Title: Combo-Gait: Unified Transformer Framework for Multi-Modal Gait Recognition and Attribute Analysis
- Title(参考訳): Combo-Gait:マルチモーダル歩行認識と属性解析のための統一トランスフォーマフレームワーク
- Authors: Zhao-Yang Wang, Zhimin Shao, Jieneng Chen, Rama Chellappa,
- Abstract要約: 本研究では,2次元の時間的シルエットと3次元のSMPL特徴を組み合わさって,ロバストな歩行分析を行うフレームワークを提案する。
識別以外にも、歩行認識と人的属性推定を共同で行うマルチタスク学習戦略を導入する。
提案手法は歩行認識における最先端手法より優れ,正確な人的属性推定を提供する。
- 参考スコア(独自算出の注目度): 35.9240903956677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is an important biometric for human identification at a distance, particularly under low-resolution or unconstrained environments. Current works typically focus on either 2D representations (e.g., silhouettes and skeletons) or 3D representations (e.g., meshes and SMPLs), but relying on a single modality often fails to capture the full geometric and dynamic complexity of human walking patterns. In this paper, we propose a multi-modal and multi-task framework that combines 2D temporal silhouettes with 3D SMPL features for robust gait analysis. Beyond identification, we introduce a multitask learning strategy that jointly performs gait recognition and human attribute estimation, including age, body mass index (BMI), and gender. A unified transformer is employed to effectively fuse multi-modal gait features and better learn attribute-related representations, while preserving discriminative identity cues. Extensive experiments on the large-scale BRIAR datasets, collected under challenging conditions such as long-range distances (up to 1 km) and extreme pitch angles (up to 50{\deg}), demonstrate that our approach outperforms state-of-the-art methods in gait recognition and provides accurate human attribute estimation. These results highlight the promise of multi-modal and multitask learning for advancing gait-based human understanding in real-world scenarios.
- Abstract(参考訳): 歩行認識は、特に低解像度または非拘束環境下で、遠くにいる人間の識別にとって重要なバイオメトリックである。
現在の研究は2D表現(例:シルエット、骨格)や3D表現(例:メッシュ、SMPL)に重点を置いているが、単一のモダリティに依存している場合、人間の歩行パターンの幾何学的・動的複雑さを完全に捉えるのに失敗することが多い。
本稿では,2次元時間的シルエットと3次元SMPL特徴を組み合わせたマルチモーダル・マルチタスク・フレームワークを提案する。
識別以外にも、年齢、身体質量指数(BMI)、性別など、歩行認識と人的属性推定を共同で行うマルチタスク学習戦略を導入する。
マルチモーダル歩行特徴を効果的に融合させ,属性関連表現をよりよく学習し,識別的アイデンティティの手がかりを保存するために,統一トランスフォーマーを用いる。
長距離距離(最大1km)や極端なピッチ角(最大50{\deg})といった難易度条件下で収集された大規模BRIARデータセットの大規模な実験により,我々の手法が歩行認識における最先端の手法より優れており,正確な人的属性推定が可能であることが示された。
これらの結果は、現実のシナリオにおける歩行に基づく人間の理解を促進するためのマルチモーダル学習とマルチタスク学習の約束を強調している。
関連論文リスト
- RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。
RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。
これは視覚的理解と高度な分析タスクの両方に有効である。
論文 参考訳(メタデータ) (2025-07-28T12:39:33Z) - Multilinear subspace learning for person re-identification based fusion of high order tensor features [2.03240755905453]
PRe-IDは、カメラネットワークで既に検出された標的個人を特定し追跡することを目的としている。
この目的のために、CNN(Conal Neural Networks)とLOMO(Local Maximal Occurrence)という2つの強力な特徴が多次元データに基づいてモデル化されている。
新しいテンソル融合スキームを導入し、これら2種類の特徴を1つのテンソルに活用する。
論文 参考訳(メタデータ) (2025-05-09T23:39:27Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [73.49799596304418]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、人工知能における長年の問題であり、幅広い分野で応用されている。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
本研究では,MM-Fit,myoGym, MotionSense, MHEALTHなどの実HARデータセットの性能向上を図る。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition [6.995226697189459]
In-the-wildビデオデータから表情認識のためのマルチモーダル自己教師学習手法を用いる。
以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクが課題に対して大きなパフォーマンス向上をもたらすことが示唆された。
トレーニング済みのモデルとソースコードを公開しています。
論文 参考訳(メタデータ) (2024-04-16T20:51:36Z) - Towards Unified 3D Object Detection via Algorithm and Data Unification [70.27631528933482]
我々は、最初の統一型マルチモーダル3Dオブジェクト検出ベンチマークMM-Omni3Dを構築し、上記のモノクロ検出器をマルチモーダルバージョンに拡張する。
設計した単分子・多モード検出器をそれぞれUniMODEとMM-UniMODEと命名した。
論文 参考訳(メタデータ) (2024-02-28T18:59:31Z) - UniM$^2$AE: Multi-modal Masked Autoencoders with Unified 3D Representation for 3D Perception in Autonomous Driving [47.590099762244535]
Masked Autoencoders (MAE)は、強力な表現の学習において重要な役割を担い、様々な3D知覚タスクにおいて優れた結果をもたらす。
この研究は、自律運転における統一された表現空間に適したマルチモーダルのMasked Autoencodersに展開する。
画像に固有のセマンティクスとLiDAR点雲の幾何学的複雑さを複雑に結合するため,UniM$2$AEを提案する。
論文 参考訳(メタデータ) (2023-08-21T02:13:40Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - Adversarial Multi-scale Feature Learning for Person Re-identification [0.0]
person reidは、2つの画像が同一人物に対応するかどうかを判断するために、人物画像間の視覚的類似度を正確に測定することを目指している。
textbf1)という2つの視点からPerson ReIDシステムの性能向上を提案します。
クロススケール情報伝搬(CSIP)とマルチスケール機能融合(MSFF)から構成されるマルチスケール特徴学習(MSFL)は、異なるスケールで動的に融合する。
マルチスケールグラデーションレギュラライザー(MSGR)は、ID関連要因を強調し、非関連要因を逆転的に無視する。
論文 参考訳(メタデータ) (2020-12-28T02:18:00Z) - Searching Multi-Rate and Multi-Modal Temporal Enhanced Networks for
Gesture Recognition [89.0152015268929]
RGB-Dジェスチャ認識のための最初のニューラルアーキテクチャサーチ(NAS)手法を提案する。
提案手法は,1)3次元中央差分畳畳み込み(3D-CDC)ファミリーによる時間的表現の強化,および多モードレート分岐と横方向接続のための最適化されたバックボーンを含む。
結果として得られたマルチレートネットワークは、RGBと深さ変調と時間力学の関係を理解するための新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-21T10:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。