論文の概要: LLM Enhanced Action Recognition via Hierarchical Global-Local Skeleton-Language Model
- arxiv url: http://arxiv.org/abs/2603.27103v1
- Date: Sat, 28 Mar 2026 03:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.783805
- Title: LLM Enhanced Action Recognition via Hierarchical Global-Local Skeleton-Language Model
- Title(参考訳): 階層的グローバル・ローカル・スケルトン・ランゲージモデルによるLLMによる行動認識の強化
- Authors: Ruosi Wang, Fangwei Zuo, Lei Li, Zhaoqiang Xia,
- Abstract要約: 階層的グローバル局所骨格言語モデル(HocSLM)を提案する。
HocSLMは、大きなアクションモデルをアクションセマンティクスのより代表的なものにすることを可能にする。
3つの主流データセットで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 10.100371688145499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Skeleton-based human action recognition has achieved remarkable progress in recent years. However, most existing GCN-based methods rely on short-range motion topologies, which not only struggle to capture long-range joint dependencies and complex temporal dynamics but also limit cross-modal semantic alignment and understanding due to insufficient modeling of action semantics. To address these challenges, we propose a hierarchical global-local skeleton-language model (HocSLM), enabling the large action model be more representative of action semantics. First, we design a hierarchical global-local network (HGLNet) that consists of a composite-topology spatial module and a dual-path hierarchical temporal module. By synergistically integrating multi-level global and local modules, HGLNet achieves dynamically collaborative modeling at both global and local scales while preserving prior knowledge of human physical structure, significantly enhancing the model's representation of complex spatio-temporal relationships. Then, a large vision-language model (VLM) is employed to generate textual descriptions by passing the original RGB video sequences to this model, providing the rich action semantics for further training the skeleton-language model. Furthermore, we introduce a skeleton-language sequential fusion module by combining the features from HGLNet and the generated descriptions, which utilizes a skeleton-language model (SLM) for aligning skeletal spatio-temporal features and textual action descriptions precisely within a unified semantic space. The SLM model could significantly enhance the HGLNet's semantic discrimination capabilities and cross-modal understanding abilities. Extensive experiments demonstrate that the proposed HocSLM achieves the state-of-the-art performance on three mainstream benchmark datasets: NTU RGB+D 60, NTU RGB+D 120, and Northwestern-UCLA.
- Abstract(参考訳): 骨格に基づく人間の行動認識は近年顕著な進歩を遂げている。
しかし、既存のGCNベースのほとんどの手法は短距離運動トポロジーに依存しており、これは長距離関節依存や複雑な時間的ダイナミクスを捉えるのに苦労するだけでなく、アクションセマンティクスのモデリングが不十分なため、モーダル間のセマンティクスのアライメントと理解を制限する。
これらの課題に対処するため、我々は階層的グローバル局所骨格言語モデル(HocSLM)を提案し、大きなアクションモデルがアクションセマンティクスをよりよく表現できるようにする。
まず、複合位相空間モジュールとデュアルパス階層時間モジュールからなる階層的グローバルローカルネットワーク(HGLNet)を設計する。
マルチレベルグローバルモジュールとローカルモジュールを相乗的に統合することにより、HGLNetは、人体構造に関する事前知識を保持しながら、グローバルスケールとローカルスケールの両方で動的に協調的なモデリングを実現し、複雑な時空間関係のモデル表現を大幅に強化する。
次に,本モデルにRGBビデオシーケンスを渡すことでテキスト記述を生成するために,大規模な視覚言語モデル(VLM)を用いて,骨格言語モデルをさらに訓練するためのリッチなアクションセマンティクスを提供する。
さらに,HGLNetの特徴と生成した記述を組み合わせ,骨格言語による逐次融合モジュールを導入し,骨格言語モデル(SLM)を用いて骨格時空間の特徴とテキスト行動記述を統一的な意味空間内で正確に整列させる。
SLMモデルは、HGLNetのセマンティック識別能力と、モーダル間理解能力を大幅に向上させる可能性がある。
大規模な実験により、提案されたHocSLMは、NTU RGB+D 60、NTU RGB+D 120、Northwestern-UCLAの3つの主要なベンチマークデータセット上で、最先端のパフォーマンスを達成することが示された。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Multi-Scale Feature Fusion and Graph Neural Network Integration for Text Classification with Large Language Models [11.071281023081582]
本研究では、大規模言語モデルからの深い特徴抽出、特徴ピラミッドによるマルチスケール融合、複雑な意味文脈における性能向上のためのグラフニューラルネットワークによる構造化モデリングを統合するテキスト分類のハイブリッド手法について検討する。
提案手法は, ACC, F1-Score, AUC, Precisionの既存モデルよりも優れたロバスト性アライメント実験において, 有効性と安定性を検証した。
論文 参考訳(メタデータ) (2025-11-07T22:54:26Z) - Foundation Model for Skeleton-Based Human Action Understanding [56.89025287217221]
本稿では,統一骨格に基づくDense Representation Learningフレームワークを提案する。
USDRLはトランスフォーマーベースのDense Spatio-Temporal (DSTE)、Multi-Grained Feature Deorrelation (MG-FD)、Multi-Perspective Consistency Training (MPCT)で構成されている。
論文 参考訳(メタデータ) (2025-08-18T02:42:16Z) - Stack Transformer Based Spatial-Temporal Attention Model for Dynamic Sign Language and Fingerspelling Recognition [1.949837893170278]
手話に基づく手話認識は、聴覚障害者と非聴覚障害者の間に重要な橋渡しとなる。
本稿では,新しいトランスフォーマーアーキテクチャであるSSTAN(Sequential Spatio-Temporal Attention Network)を提案する。
多様な大規模データセットに関する広範な実験を通じて、我々のモデルを検証した。
論文 参考訳(メタデータ) (2025-03-21T04:57:18Z) - Bridging Large Language Models and Graph Structure Learning Models for Robust Representation Learning [22.993015048941444]
グラフ表現学習は現実世界のアプリケーションには不可欠だが、広範にわたるノイズに遭遇することが多い。
本稿では,事前学習された言語モデルとグラフ構造学習モデルの相補的な長所を統合するフレームワークであるLangGSLを紹介する。
論文 参考訳(メタデータ) (2024-10-15T22:43:32Z) - SpatioTemporal Focus for Skeleton-based Action Recognition [66.8571926307011]
グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識において広く採用されている。
近年提案されている骨格に基づく行動認識法の性能は以下の要因によって制限されていると論じる。
近年の注目機構に着想を得て,アクション関連関係情報を取得するためのマルチグラインド・コンテキスト集中モジュール MCF を提案する。
論文 参考訳(メタデータ) (2022-03-31T02:45:24Z) - Multi-Scale Semantics-Guided Neural Networks for Efficient
Skeleton-Based Human Action Recognition [140.18376685167857]
スケルトンに基づく行動認識には,単純なマルチスケールセマンティクス誘導ニューラルネットワークが提案されている。
MS-SGNは、NTU60、NTU120、SYSUデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-11-07T03:50:50Z) - Global Aggregation then Local Distribution for Scene Parsing [99.1095068574454]
提案手法は,エンドツーエンドのトレーニング可能なブロックとしてモジュール化され,既存のセマンティックセグメンテーションネットワークに容易に接続可能であることを示す。
私たちのアプローチでは、Cityscapes、ADE20K、Pascal Context、Camvid、COCO-stuffといった主要なセマンティックセグメンテーションベンチマークに基づいて、新しい最先端の技術を構築できます。
論文 参考訳(メタデータ) (2021-07-28T03:46:57Z) - S2RMs: Spatially Structured Recurrent Modules [105.0377129434636]
モジュール構造とテンポラル構造の両方を同時に活用できる動的構造を利用するための一歩を踏み出します。
我々のモデルは利用可能なビューの数に対して堅牢であり、追加のトレーニングなしで新しいタスクに一般化できる。
論文 参考訳(メタデータ) (2020-07-13T17:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。