論文の概要: SilLang: Improving Gait Recognition with Silhouette Language Encoding
- arxiv url: http://arxiv.org/abs/2603.23976v1
- Date: Wed, 25 Mar 2026 06:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.158677
- Title: SilLang: Improving Gait Recognition with Silhouette Language Encoding
- Title(参考訳): SilLang: Silhouette言語エンコーディングによる歩行認識の改善
- Authors: Ruiyi Zhan, Guozhen Peng, Canyu Chen, Jian Lei, Annan Li,
- Abstract要約: 歩行シルエットは、歩行者の動きパターンを表現するために二進歩行符号に符号化することができる。
最近のアプローチでは、視覚的バックボーンを利用して歩行シルエットを符号化し、パフォーマンスを成功させる。
LLMから派生した個別言語埋め込みを統合したSilhouette Language Modelと呼ばれる2分岐フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.765729403289546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gait silhouettes, which can be encoded into binary gait codes, are widely adopted to representing motion patterns of pedestrian. Recent approaches commonly leverage visual backbones to encode gait silhouettes, achieving successful performance. However, they primarily focus on continuous visual features, overlooking the discrete nature of binary silhouettes that inherently share a discrete encoding space with natural language. Large Language Models (LLMs) have demonstrated exceptional capability in extracting discriminative features from discrete sequences and modeling long-range dependencies, highlighting their potential to capture temporal motion patterns by identifying subtle variations. Motivated by these observations, we explore bridging binary gait silhouettes and natural language within a binary encoding space. However, the encoding spaces of text tokens and binary gait silhouettes remain misaligned, primarily due to differences in token frequency and density. To address this issue, we propose the Contour-Velocity Tokenizer, which encodes binary gait silhouettes while reshaping their distribution to better align with the text token space. We then establish a dual-branch framework termed Silhouette Language Model, which enhances visual silhouettes by integrating discrete linguistic embeddings derived from LLMs. Implemented on mainstream gait backbones, SilLang consistently improves state-of-the-art methods across SUSTech1K, GREW, and Gait3D.
- Abstract(参考訳): 二進歩行符号に符号化できる歩行シルエットは、歩行者の運動パターンを表現するために広く採用されている。
最近のアプローチでは、一般的に視覚的バックボーンを利用して歩行シルエットを符号化し、パフォーマンスを成功させる。
しかし、それらは主に連続的な視覚的特徴に焦点を合わせ、本質的には自然言語と離散的な符号化空間を共有するバイナリシルエットの離散的な性質を見下ろしている。
大規模言語モデル(LLM)は、離散配列から識別的特徴を抽出し、長距離依存をモデル化し、微妙な変化を識別して時間的動きパターンを捉える可能性を強調した。
これらの観測により、二進歩行シルエットと自然言語を二進符号化空間内でブリッジする方法について検討した。
しかし、テキストトークンとバイナリ・ゲイト・シルエットの符号化空間は、主にトークン周波数と密度の違いのために、不一致のままである。
この問題に対処するため,二進歩行シルエットを符号化し,それらの分布を変換してテキストトークン空間との整合性を向上するContour-Velocity Tokenizerを提案する。
次に、LLMから派生した個別言語埋め込みを統合することにより、視覚的シルエットを強化する、Silhouette Language Modelと呼ばれるデュアルブランチフレームワークを構築した。
メインストリームの歩行バックボーンに実装されているSilLangは、SUSTech1K、GREW、Gait3Dをまたいだ最先端のメソッドを一貫して改善している。
関連論文リスト
- See the Text: From Tokenization to Visual Reading [63.10220471118435]
SeeTokはテキストを画像(ビジュアルテキスト)としてレンダリングし、事前訓練されたマルチモーダル計算を利用して解釈する。
3つの異なる言語タスクの中で、SeeeTokはサブワードトークンをマッチまたはオーバーし、トークンを4.43倍少なくし、FLOPを70.5%削減する。
SeeTokは、象徴的なトークン化から人間のような視覚的な読み方へとシフトし、より自然で認知的にインスパイアされた言語モデルへと一歩前進する。
論文 参考訳(メタデータ) (2025-10-21T17:34:48Z) - Visual Lexicon: Rich Image Features in Language Space [99.94214846451347]
ViLexは、リッチなセマンティックコンテンツと詳細な視覚的詳細を同時にキャプチャする。
ViLexは、凍結されたテキスト・ツー・イメージ(T2I)拡散モデルを用いて入力画像の再構成に最適化されたトークンを生成する。
言語空間に埋め込まれた画像として、ViLexトークンは自然言語の合成性を利用する。
論文 参考訳(メタデータ) (2024-12-09T18:57:24Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Natural Language-Assisted Sign Language Recognition [28.64871971445024]
自然言語支援手話認識フレームワークを提案する。
グルース(記号ラベル)に含まれる意味情報を利用して、手話における視覚的に区別できない記号(VISigns)の問題を緩和する。
提案手法は, MSASL, WLASL, NMFs-CSLの3つのベンチマークに対して, 最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-21T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。