論文の概要: SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition
- arxiv url: http://arxiv.org/abs/2511.10091v1
- Date: Fri, 14 Nov 2025 01:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.692651
- Title: SUGAR: Learning Skeleton Representation with Visual-Motion Knowledge for Action Recognition
- Title(参考訳): SUGAR:行動認識のための視覚運動知識を用いた骨格表現の学習
- Authors: Qilang Ye, Yu Zhou, Lian He, Jie Zhang, Xuanming Guo, Jiayu Zhang, Mingkui Tan, Weicheng Xie, Yue Sun, Tao Tan, Xiaochen Yuan, Ghada Khoriba, Zitong Yu,
- Abstract要約: 我々は行動認識のためのvisUal-motion knowledGe(SUGAR)を紹介する。
パイプラインでは、まず、市販の大規模ビデオモデルを知識ベースとして利用し、アクションに関連する視覚的、運動的な情報を生成する。
これらの表現を理解して、所望のアクションターゲットと記述を生成するために、未修正の事前学習重み付きLLMを使用する。
- 参考スコア(独自算出の注目度): 70.56416162106036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) hold rich implicit knowledge and powerful transferability. In this paper, we explore the combination of LLMs with the human skeleton to perform action classification and description. However, when treating LLM as a recognizer, two questions arise: 1) How can LLMs understand skeleton? 2) How can LLMs distinguish among actions? To address these problems, we introduce a novel paradigm named learning Skeleton representation with visUal-motion knowledGe for Action Recognition (SUGAR). In our pipeline, we first utilize off-the-shelf large-scale video models as a knowledge base to generate visual, motion information related to actions. Then, we propose to supervise skeleton learning through this prior knowledge to yield discrete representations. Finally, we use the LLM with untouched pre-training weights to understand these representations and generate the desired action targets and descriptions. Notably, we present a Temporal Query Projection (TQP) module to continuously model the skeleton signals with long sequences. Experiments on several skeleton-based action classification benchmarks demonstrate the efficacy of our SUGAR. Moreover, experiments on zero-shot scenarios show that SUGAR is more versatile than linear-based methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、豊富な暗黙の知識と強力な伝達可能性を持っている。
本稿では,LLMとヒト骨格の組み合わせについて検討し,行動分類と記述を行う。
しかし、LLMを認識者として扱うと、2つの疑問が生じる。
1) LLM はどうやって骨格を理解できるのか?
2) LLM はどのようにして動作を区別できるのか?
これらの問題に対処するために, visUal-motion knowledGe for Action Recognition (SUGAR) を用いたスケルトン表現学習という新しいパラダイムを導入する。
パイプラインでは、まず、市販の大規模ビデオモデルを知識ベースとして利用し、アクションに関連する視覚的、運動的な情報を生成する。
そこで本研究では,この事前知識を通じて骨格学習を監督し,離散表現を生成することを提案する。
最後に,これらの表現を理解し,所望のアクションターゲットと記述を生成するために,未修正の事前学習重み付きLLMを使用する。
特に,TQP(Temporal Query Projection)モジュールを用いて,長いシーケンスでスケルトン信号を連続的にモデル化する。
いくつかの骨格に基づく行動分類ベンチマーク実験により,SUGARの有効性が示された。
さらに, ゼロショットシナリオを用いた実験により, SUGARは線形手法よりも汎用性が高いことが示された。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - What In-Context Learning "Learns" In-Context: Disentangling Task
Recognition and Task Learning [24.395288160951118]
大規模言語モデル(LLM)は、いくつかのデモでタスクを解くためにコンテキスト内学習(ICL)を利用する。
ICLがデモを利用する2つの方法の特徴付けを行う。
TRのみを用いて非自明な性能を達成でき、TRはより大きなモデルやより多くのデモでさらに改善されないことを示す。
論文 参考訳(メタデータ) (2023-05-16T18:05:19Z) - MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition [36.74293548921099]
動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
論文 参考訳(メタデータ) (2020-10-12T11:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。