論文の概要: Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
- arxiv url: http://arxiv.org/abs/2601.11931v2
- Date: Fri, 23 Jan 2026 11:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.287136
- Title: Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
- Title(参考訳): 一般化可能な音声認識のための言語ガイドとモーションアウェア・ゲイト表現
- Authors: Zhengxian Wu, Chuanrui Zhang, Shenao Jiang, Hangrui Xu, Zirui Liao, Luyuan Zhang, Huaqiu Li, Peng Jiao, Haoqian Wang,
- Abstract要約: 本稿では,LMGait という言語誘導型歩行認識フレームワークを提案する。
特に,歩行系列における重要な動きの特徴を捉えるために,歩行関連言語キューを設計した。
複数のデータセットにまたがって広範な実験を行い、提案したネットワークの利点を実証した。
- 参考スコア(独自算出の注目度): 21.772052273755808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is emerging as a promising technology and an innovative field within computer vision, with a wide range of applications in remote human identification. However, existing methods typically rely on complex architectures to directly extract features from images and apply pooling operations to obtain sequence-level representations. Such designs often lead to overfitting on static noise (e.g., clothing), while failing to effectively capture dynamic motion regions, such as the arms and legs. This bottleneck is particularly challenging in the presence of intra-class variation, where gait features of the same individual under different environmental conditions are significantly distant in the feature space. To address the above challenges, we present a Languageguided and Motion-aware gait recognition framework, named LMGait. To the best of our knowledge, LMGait is the first method to introduce natural language descriptions as explicit semantic priors into the gait recognition task. In particular, we utilize designed gait-related language cues to capture key motion features in gait sequences. To improve cross-modal alignment, we propose the Motion Awareness Module (MAM), which refines the language features by adaptively adjusting various levels of semantic information to ensure better alignment with the visual representations. Furthermore, we introduce the Motion Temporal Capture Module (MTCM) to enhance the discriminative capability of gait features and improve the model's motion tracking ability. We conducted extensive experiments across multiple datasets, and the results demonstrate the significant advantages of our proposed network. Specifically, our model achieved accuracies of 88.5%, 97.1%, and 97.5% on the CCPG, SUSTech1K, and CASIAB datasets, respectively, achieving state-of-the-art performance. Homepage: https://dingwu1021.github.io/LMGait/
- Abstract(参考訳): 歩行認識は、コンピュータビジョンにおける有望な技術と革新的な分野として登場しており、遠隔での人間の識別に幅広い応用がある。
しかし、既存の手法は通常、画像から特徴を直接抽出し、シーケンスレベルの表現を得るためにプール操作を適用するために複雑なアーキテクチャに依存している。
このような設計は、しばしば静的ノイズ(例えば衣服)に過度に適合するが、腕や脚などの動的運動領域を効果的に捉えない。
このボトルネックは、異なる環境条件下で同じ個体の歩行特徴が特徴空間において著しく離れているクラス内変異の存在下で特に困難である。
上記の課題に対処するため,LMGait という言語誘導・運動対応歩行認識フレームワークを提案する。
我々の知る限り、LMGaitは、歩行認識タスクに明示的なセマンティック先行として自然言語記述を導入する最初の方法である。
特に,歩行系列における重要な動きの特徴を捉えるために,歩行関連言語キューを設計した。
モーダルなアライメントを改善するため,様々な意味情報を適応的に調整し,視覚的表現とのアライメントを向上させることで言語特徴を改良するMotion Awareness Module (MAM)を提案する。
さらに、歩行特徴の識別能力を高め、モデルの動き追跡能力を向上させるために、MTCM(Motion Temporal Capture Module)を導入する。
複数のデータセットにまたがって広範な実験を行い、提案したネットワークの利点を実証した。
具体的には、CCPG、SUSTech1K、CASIABデータセットでそれぞれ88.5%、97.1%、97.5%の精度を達成した。
ホームページ: https://dingwu1021.github.io/LMGait/
関連論文リスト
- Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment [6.124050993047708]
WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-15T10:28:50Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - BigGait: Learning Gait Representation You Want by Large Vision Models [12.620774996969535]
既存の歩行認識手法は、教師あり学習によって駆動されるタスク固有の上流に頼り、明確な歩行表現を提供する。
この傾向から逃れたこの研究は、BigGaitと呼ばれるシンプルだが効率的な歩行フレームワークを提案する。
BigGaitは、すべての目的の知識を、サードパーティの監視信号を必要としない暗黙の歩行表現に変換する。
論文 参考訳(メタデータ) (2024-02-29T13:00:22Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。