論文の概要: BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models
- arxiv url: http://arxiv.org/abs/2505.18132v2
- Date: Mon, 09 Jun 2025 02:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.997502
- Title: BiggerGait: Unlocking Gait Recognition with Layer-wise Representations from Large Vision Models
- Title(参考訳): BiggerGait:大規模視覚モデルによる階層的表現による歩行認識のアンロック
- Authors: Dingqing Ye, Chao Fan, Zhanbo Huang, Chengwen Luo, Jianqiang Li, Shiqi Yu, Xiaoming Liu,
- Abstract要約: 本研究は,下流認識タスクにおけるレイヤワイド表現の影響について検討する。
We propose a simple and universal baseline for LVM based gait recognition, called BiggerGait。
CCPG, CAISA-B*, SUSTech1K, CCGR_MINIの総合評価は, 内部およびクロスドメインタスクにおけるBiggerGaitの優位性を検証した。
- 参考スコア(独自算出の注目度): 16.21103558769559
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large vision models (LVM) based gait recognition has achieved impressive performance. However, existing LVM-based approaches may overemphasize gait priors while neglecting the intrinsic value of LVM itself, particularly the rich, distinct representations across its multi-layers. To adequately unlock LVM's potential, this work investigates the impact of layer-wise representations on downstream recognition tasks. Our analysis reveals that LVM's intermediate layers offer complementary properties across tasks, integrating them yields an impressive improvement even without rich well-designed gait priors. Building on this insight, we propose a simple and universal baseline for LVM-based gait recognition, termed BiggerGait. Comprehensive evaluations on CCPG, CAISA-B*, SUSTech1K, and CCGR\_MINI validate the superiority of BiggerGait across both within- and cross-domain tasks, establishing it as a simple yet practical baseline for gait representation learning. All the models and code will be publicly available.
- Abstract(参考訳): 大規模視覚モデル(LVM)に基づく歩行認識は、目覚ましい性能を達成した。
しかし、既存のLVMベースのアプローチは、LVM自体の本質的な価値、特にその多層層にわたるリッチで独特な表現を無視しながら、歩留まりを過度に強調する可能性がある。
LVMのポテンシャルを適切に解き放つために、下流認識タスクにおけるレイヤワイズ表現の影響について検討する。
分析の結果,LVM の中間層はタスク間の相補的な特性を提供し,それらを統合することで,十分な設計の歩留まりを伴わずとも優れた改善が得られることがわかった。
この知見に基づいて、我々は、BiggerGaitと呼ばれるLVMベースの歩行認識のためのシンプルで普遍的なベースラインを提案する。
CCPG, CAISA-B*, SUSTech1K, CCGR\_MINIの総合的な評価は, 内部およびクロスドメインタスクにおけるBiggerGaitの優位性を検証し, 歩行表現学習の単純かつ実用的なベースラインとして確立した。
すべてのモデルとコードは公開されます。
関連論文リスト
- Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Intriguing Properties of Large Language and Vision Models [18.449076451976236]
大規模言語とビジョンモデル(LLVM)は、その顕著な一般化性能のために、大きな注目と開発努力を受けている。
高度な推論タスクの達成にもかかわらず、基本的な知覚関連タスクのパフォーマンスは驚くほど低いままである。
LLVMの最も一般的なファミリー(LLaVA)を10評価ベンチマークで評価することで、この問題を調査する。
論文 参考訳(メタデータ) (2024-10-07T05:07:01Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large Multimodal Models [87.47400128150032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
ルーメンはまず、きめ細かい視覚言語の概念のアライメントを促進する。
そして、共有表現を軽量なタスクデコーダに柔軟にルーティングすることで、タスク固有のデコーダを実行する。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - BigGait: Learning Gait Representation You Want by Large Vision Models [12.620774996969535]
既存の歩行認識手法は、教師あり学習によって駆動されるタスク固有の上流に頼り、明確な歩行表現を提供する。
この傾向から逃れたこの研究は、BigGaitと呼ばれるシンプルだが効率的な歩行フレームワークを提案する。
BigGaitは、すべての目的の知識を、サードパーティの監視信号を必要としない暗黙の歩行表現に変換する。
論文 参考訳(メタデータ) (2024-02-29T13:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。