論文の概要: Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
- arxiv url: http://arxiv.org/abs/2601.11931v1
- Date: Sat, 17 Jan 2026 06:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.383626
- Title: Language-Guided and Motion-Aware Gait Representation for Generalizable Recognition
- Title(参考訳): 一般化可能な音声認識のための言語ガイドとモーションアウェア・ゲイト表現
- Authors: Zhengxian Wu, Chuanrui Zhang, Shenao Jiang, Hangrui Xu, Zirui Liao, Luyuan Zhang, Huaqiu Li, Peng Jiao, Haoqian Wang,
- Abstract要約: 本稿では,LMGait という名前の言語ガイドおよびモーション対応歩行認識フレームワークを提案する。
特に,歩行系列における重要な動きの特徴を捉えるために,歩行関連言語キューを設計した。
- 参考スコア(独自算出の注目度): 21.772052273755808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait recognition is emerging as a promising technology and an innovative field within computer vision. However, existing methods typically rely on complex architectures to directly extract features from images and apply pooling operations to obtain sequence-level representations. Such designs often lead to overfitting on static noise (e.g., clothing), while failing to effectively capture dynamic motion regions.To address the above challenges, we present a Language guided and Motion-aware gait recognition framework, named LMGait.In particular, we utilize designed gait-related language cues to capture key motion features in gait sequences.
- Abstract(参考訳): 歩行認識は、コンピュータビジョンにおける有望な技術と革新的な分野として現れつつある。
しかし、既存の手法は通常、画像から特徴を直接抽出し、シーケンスレベルの表現を得るためにプール操作を適用するために複雑なアーキテクチャに依存している。
このような設計は、しばしば静的ノイズ(例えば衣服)に過度に適合するが、動的運動領域を効果的に捉えることができず、上記の課題に対処するために、LMGaitという名前の言語ガイドおよび運動対応歩行認識フレームワーク(Language Guided and Motion-Aware Gait Recognition framework)を提案する。
関連論文リスト
- Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment [6.124050993047708]
WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-10-15T10:28:50Z) - Retrieving Semantics from the Deep: an RAG Solution for Gesture Synthesis [55.45253486141108]
RAG-Gestureは、意味的に豊かなジェスチャーを生成するための拡散に基づくジェスチャー生成手法である。
我々は、明示的なドメイン知識を用いて、共同音声ジェスチャーのデータベースから動きを検索する。
提案手法では,各検索挿入が生成したシーケンスに対して与える影響量を調整可能なガイダンス制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-12-09T18:59:46Z) - EAGLE: Towards Efficient Arbitrary Referring Visual Prompts Comprehension for Multimodal Large Language Models [80.00303150568696]
本稿では,既存のアプローチよりもトレーニングの少ない任意の参照視覚的プロンプトの理解を促進するための,MLLM(Multimodal Large Language Models)を提案する。
本手法は,視覚的プロンプトを,MLLMに理解可能な特定の空間領域を伝達する空間概念として応用する。
我々はまた、MLLMの領域レベルの理解を視覚的プロンプトを参照する特定の形式にさらに引き離すための幾何非依存学習パラダイム(GAL)を提案する。
論文 参考訳(メタデータ) (2024-09-25T08:22:00Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z) - BigGait: Learning Gait Representation You Want by Large Vision Models [12.620774996969535]
既存の歩行認識手法は、教師あり学習によって駆動されるタスク固有の上流に頼り、明確な歩行表現を提供する。
この傾向から逃れたこの研究は、BigGaitと呼ばれるシンプルだが効率的な歩行フレームワークを提案する。
BigGaitは、すべての目的の知識を、サードパーティの監視信号を必要としない暗黙の歩行表現に変換する。
論文 参考訳(メタデータ) (2024-02-29T13:00:22Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Pose-based Sign Language Recognition using GCN and BERT [0.0]
単語レベルの手話認識(WSLR)は手話を理解し解釈するための最初の重要なステップである。
ビデオからサインを認識することは、単語の意味が微妙な身体の動き、手の動き、その他の動きの組み合わせに依存するため、難しい作業である。
W SLRの最近のポーズベースアーキテクチャは、異なるフレーム内のポーズ間の空間的および時間的依存関係を同時にモデル化するか、空間的情報を完全に活用せずに時間的情報のみをモデル化する。
本稿では,空間的・時間的情報を別々に捉え,遅延融合を行う新しいポーズベースアプローチを用いて,W SLRの課題に取り組む。
論文 参考訳(メタデータ) (2020-12-01T19:10:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。