論文の概要: Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
- arxiv url: http://arxiv.org/abs/2601.11931v2
- Date: Fri, 23 Jan 2026 11:54:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.287136
- Title: Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
- Title(参考訳): 一般化可能な音声認識のための言語ガイドとモーションアウェア・ゲイト表現
- Authors: Zhengxian Wu, Chuanrui Zhang, Shenao Jiang, Hangrui Xu, Zirui Liao, Luyuan Zhang, Huaqiu Li, Peng Jiao, Haoqian Wang,
- Abstract要約: 本稿では,LMGait という言語誘導型歩行認識フレームワークを提案する。
特に,歩行系列における重要な動きの特徴を捉えるために,歩行関連言語キューを設計した。
複数のデータセットにまたがって広範な実験を行い、提案したネットワークの利点を実証した。
- 参考スコア(独自算出の注目度): 21.772052273755808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is emerging as a promising technology and an innovative field within computer vision, with a wide range of applications in remote human identification. However, existing methods typically rely on complex architectures to directly extract features from images and apply pooling operations to obtain sequence-level representations. Such designs often lead to overfitting on static noise (e.g., clothing), while failing to effectively capture dynamic motion regions, such as the arms and legs. This bottleneck is particularly challenging in the presence of intra-class variation, where gait features of the same individual under different environmental conditions are significantly distant in the feature space. To address the above challenges, we present a Languageguided and Motion-aware gait recognition framework, named LMGait. To the best of our knowledge, LMGait is the first method to introduce natural language descriptions as explicit semantic priors into the gait recognition task. In particular, we utilize designed gait-related language cues to capture key motion features in gait sequences. To improve cross-modal alignment, we propose the Motion Awareness Module (MAM), which refines the language features by adaptively adjusting various levels of semantic information to ensure better alignment with the visual representations. Furthermore, we introduce the Motion Temporal Capture Module (MTCM) to enhance the discriminative capability of gait features and improve the model's motion tracking ability. We conducted extensive experiments across multiple datasets, and the results demonstrate the significant advantages of our proposed network. Specifically, our model achieved accuracies of 88.5%, 97.1%, and 97.5% on the CCPG, SUSTech1K, and CASIAB datasets, respectively, achieving state-of-the-art performance. Homepage: https://dingwu1021.github.io/LMGait/
- Abstract(参考訳): 歩行認識は、コンピュータビジョンにおける有望な技術と革新的な分野として登場しており、遠隔での人間の識別に幅広い応用がある。
しかし、既存の手法は通常、画像から特徴を直接抽出し、シーケンスレベルの表現を得るためにプール操作を適用するために複雑なアーキテクチャに依存している。
このような設計は、しばしば静的ノイズ(例えば衣服)に過度に適合するが、腕や脚などの動的運動領域を効果的に捉えない。
このボトルネックは、異なる環境条件下で同じ個体の歩行特徴が特徴空間において著しく離れているクラス内変異の存在下で特に困難である。
上記の課題に対処するため,LMGait という言語誘導・運動対応歩行認識フレームワークを提案する。
我々の知る限り、LMGaitは、歩行認識タスクに明示的なセマンティック先行として自然言語記述を導入する最初の方法である。
特に,歩行系列における重要な動きの特徴を捉えるために,歩行関連言語キューを設計した。
モーダルなアライメントを改善するため,様々な意味情報を適応的に調整し,視覚的表現とのアライメントを向上させることで言語特徴を改良するMotion Awareness Module (MAM)を提案する。
さらに、歩行特徴の識別能力を高め、モデルの動き追跡能力を向上させるために、MTCM(Motion Temporal Capture Module)を導入する。
複数のデータセットにまたがって広範な実験を行い、提案したネットワークの利点を実証した。
具体的には、CCPG、SUSTech1K、CASIABデータセットでそれぞれ88.5%、97.1%、97.5%の精度を達成した。
ホームページ: https://dingwu1021.github.io/LMGait/
関連論文リスト
- Arabic Sign Language Recognition using Multimodal Approach [0.0]
アラビア手話(ArSL)は、聴覚障害者コミュニティにおける個人にとって不可欠なコミュニケーション方法である。
既存の認識システムは、Leap MotionやRGBカメラのような単一センサーアプローチに依存しているため、重大な課題に直面している。
本稿では,Leap Motion と RGB カメラデータを組み合わせて ArSL 認識の可能性を検討するマルチモーダルアプローチの可能性を検討することを目的とする。
論文 参考訳(メタデータ) (2026-01-20T09:21:43Z) - Enhancing Spatio-Temporal Zero-shot Action Recognition with Language-driven Description Attributes [54.50887214639301]
提案手法は,大規模言語モデルを用いて関連キーワードを抽出し,Webcrawled 記述を活用する革新的な手法である。
この方法は、人間のアノテーションの必要性を減らし、属性データ作成の面倒な手作業を取り除く。
ゼロショット実験では,UCF-101,HMDB-51,Kineetics-600で81.0%,53.1%,68.9%の精度を達成した。
論文 参考訳(メタデータ) (2025-10-31T07:45:44Z) - Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment [6.124050993047708]
WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-15T10:28:50Z) - MGCR-Net:Multimodal Graph-Conditioned Vision-Language Reconstruction Network for Remote Sensing Change Detection [55.702662643521265]
マルチモーダルデータのセマンティックインタラクション機能を検討するために,マルチモーダルグラフ条件付き視覚言語再構成ネットワーク(MGCR-Net)を提案する。
4つの公開データセットによる実験結果から,MGCRは主流CD法に比べて優れた性能を示した。
論文 参考訳(メタデータ) (2025-08-03T02:50:08Z) - UPRE: Zero-Shot Domain Adaptation for Object Detection via Unified Prompt and Representation Enhancement [25.139037597606233]
ゼロショット領域適応(ZSDA)は、ターゲット領域に画像が欠如しているため、重大な課題を提起する。
従来のアプローチでは、この課題に対処するためにVLM(Vision-Language Models)を使用していた。
本稿では,テキストプロンプトと視覚表現を協調的に最適化するUPREフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-01T13:00:41Z) - SkillMimic-V2: Learning Robust and Generalizable Interaction Skills from Sparse and Noisy Demonstrations [68.9300049150948]
インタラクション実証(Reinforcement Demonstration, RLID)からの強化学習における根本的な課題に対処する。
既存のデータ収集アプローチはスパース、非接続、ノイズのトラジェクトリを生成し、スキルのバリエーションとトランジションの完全なスペクトルをキャプチャできない。
本稿では,実証技術間の潜在的な遷移を検出するStitched Trajectory Graph (STG) と,実証地区内の任意の状態に対するユニークな接続を確立するState Transition Field (STF) という2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2025-05-04T13:00:29Z) - Boosting Single-domain Generalized Object Detection via Vision-Language Knowledge Interaction [4.692621855184482]
Single-Domain Generalized Object Detection (S-DGOD)は、単一のソースドメイン上でオブジェクト検出をトレーニングすることを目的としている。
最近のS-DGODアプローチは、事前学習された視覚言語知識を利用して、視覚領域を越えて不変な特徴学習を導く。
本稿では,S-DGODタスクの一般化および識別的地域特徴をキャプチャするクロスモーダル特徴学習手法を提案する。
論文 参考訳(メタデータ) (2025-04-27T02:55:54Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - Multi-Granularity Language-Guided Training for Multi-Object Tracking [95.91263758294154]
本稿では,多目的追跡フレームワークLG-MOTを提案する。
推測では、LG-MOTは注釈付き言語記述に頼ることなく、標準的な視覚機能を使用します。
我々のLG-MOTは、視覚的特徴のみを用いたベースラインと比較して、目標対象関連(IDF1スコア)において、絶対的な2.2%のゲインを達成している。
論文 参考訳(メタデータ) (2024-06-07T11:18:40Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - BigGait: Learning Gait Representation You Want by Large Vision Models [12.620774996969535]
既存の歩行認識手法は、教師あり学習によって駆動されるタスク固有の上流に頼り、明確な歩行表現を提供する。
この傾向から逃れたこの研究は、BigGaitと呼ばれるシンプルだが効率的な歩行フレームワークを提案する。
BigGaitは、すべての目的の知識を、サードパーティの監視信号を必要としない暗黙の歩行表現に変換する。
論文 参考訳(メタデータ) (2024-02-29T13:00:22Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - DyGait: Exploiting Dynamic Representations for High-performance Gait
Recognition [35.642868929840034]
歩行認識は、歩行パターンを通して人間の身元を認識する生体計測技術である。
我々は動的特徴の抽出に焦点をあて,DyGaitという新しい高性能なフレームワークを提案する。
我々のネットワークは、GREWデータセットで71.4%、Gait3Dデータセットで66.3%、CAIA-Bデータセットで98.4%、OU-Mデータセットで98.3%の平均ランク1の精度を達成した。
論文 参考訳(メタデータ) (2023-03-27T07:36:47Z) - Leveraging Semantic Scene Characteristics and Multi-Stream Convolutional
Architectures in a Contextual Approach for Video-Based Visual Emotion
Recognition in the Wild [31.40575057347465]
私たちは、野生のビデオベースの視覚感情認識のタスクに取り組みます。
身体および顔の特徴の抽出のみに依存する標準的な方法論は、しばしば正確な感情予測に欠ける。
我々は、シーンの特徴や属性の形で視覚的コンテキストを活用することで、この問題を軽減することを目指している。
論文 参考訳(メタデータ) (2021-05-16T17:31:59Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。