論文の概要: SkeletonContext: Skeleton-side Context Prompt Learning for Zero-Shot Skeleton-based Action Recognition
- arxiv url: http://arxiv.org/abs/2603.29692v1
- Date: Tue, 31 Mar 2026 12:46:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.662344
- Title: SkeletonContext: Skeleton-side Context Prompt Learning for Zero-Shot Skeleton-based Action Recognition
- Title(参考訳): スケルトン文脈:ゼロショットスケルトンに基づく行動認識のためのスケルトン側コンテキストプロンプト学習
- Authors: Ning Wang, Tieyue Wu, Naeha Sharif, Farid Boussaid, Guangming Zhu, Lin Mei, Mohammed Bennamoun, zhang liang,
- Abstract要約: ゼロショットスケルトンに基づく行動認識は、目に見えるカテゴリから意味記述を通じて知識を伝達することで、目に見えない行動を認識することを目的としている。
既存のほとんどのメソッドは、典型的には、スケルトンの特徴を共有潜在空間内のテキスト埋め込みと整列する。
スケルトンコンテキスト(SkeletonContext)は、言語駆動型文脈意味論で骨格運動表現を豊かにするプロンプトベースのフレームワークである。
- 参考スコア(独自算出の注目度): 22.87993245982946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Zero-shot skeleton-based action recognition aims to recognize unseen actions by transferring knowledge from seen categories through semantic descriptions. Most existing methods typically align skeleton features with textual embeddings within a shared latent space. However, the absence of contextual cues, such as objects involved in the action, introduces an inherent gap between skeleton and semantic representations, making it difficult to distinguish visually similar actions. To address this, we propose SkeletonContext, a prompt-based framework that enriches skeletal motion representations with language-driven contextual semantics. Specifically, we introduce a Cross-Modal Context Prompt Module, which leverages a pretrained language model to reconstruct masked contextual prompts under guidance derived from LLMs. This design effectively transfers linguistic context to the skeleton encoder for instance-level semantic grounding and improved cross-modal alignment. In addition, a Key-Part Decoupling Module is incorporated to decouple motion-relevant joint features, ensuring robust action understanding even in the absence of explicit object interactions. Extensive experiments on multiple benchmarks demonstrate that SkeletonContext achieves state-of-the-art performance under both conventional and generalized zero-shot settings, validating its effectiveness in reasoning about context and distinguishing fine-grained, visually similar actions.
- Abstract(参考訳): ゼロショットスケルトンに基づく行動認識は、目に見えるカテゴリから意味記述を通じて知識を伝達することで、目に見えない行動を認識することを目的としている。
既存のほとんどのメソッドは、典型的には、スケルトンの特徴を共有潜在空間内のテキスト埋め込みと整列する。
しかし、行動に関わる物体のような文脈的手がかりがないことは、骨格と意味的表現の間に固有のギャップをもたらし、視覚的に類似した行動の区別が困難になる。
そこで本稿では,骨格運動表現を言語による文脈意味論で強化する,プロンプトベースのフレームワークであるSkeletonContextを提案する。
具体的には、事前訓練された言語モデルを利用して、LLMから導出された誘導の下で、マスク付きコンテキストプロンプトを再構築するクロスモーダルコンテキストプロンプトモジュールを提案する。
この設計は、言語コンテキストをインスタンスレベルのセマンティックグラウンドリングと改良されたモーダルアライメントのためにスケルトンエンコーダに効果的に転送する。
さらに、キー・パート・デカップリング・モジュールは、運動関連継手の特徴を分離するために組み込まれ、明示的なオブジェクトの相互作用がなくても、堅牢なアクション理解が保証される。
複数のベンチマークでの大規模な実験により、SkeletonContextは従来のゼロショット設定と一般化されたゼロショット設定の両方で最先端のパフォーマンスを達成し、コンテキストを推論し、きめ細かな視覚的に類似したアクションを識別する効果を検証した。
関連論文リスト
- Novel Semantic Prompting for Zero-Shot Action Recognition [0.0]
ゼロショットアクション認識は、視覚言語モデルからセマンティック記述を用いた未知のアクションへの知識の伝達に依存している。
本稿では,複数の抽象化レベルにおける動作を記述する構造化セマンティックプロンプトを用いて,凍結視覚言語モデルを拡張する軽量フレームワークSP-CLIPを紹介する。
論文 参考訳(メタデータ) (2026-03-09T12:07:55Z) - Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - PALUM: Part-based Attention Learning for Unified Motion Retargeting [53.17113525688095]
異なる骨格構造を持つキャラクター間の反発は、コンピュータアニメーションの基本的な課題である。
多様な骨格トポロジーにまたがる共通の動き表現を学習する新しいアプローチを提案する。
実験は、運動リアリズムと意味的忠実性を維持しながら、多様な骨格構造を扱う上で優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-12T07:29:44Z) - Including Semantic Information via Word Embeddings for Skeleton-based Action Recognition [7.441242294426765]
本稿では,単語の埋め込みを利用して意味情報をエンコードすることで,入力表現を豊かにするスケルトンに基づく行動認識手法を提案する。
本手法は, ワンホット符号化を意味ボリュームに置き換えることで, モデルが関節と物体間の有意義な関係を捉えることを可能にする。
論文 参考訳(メタデータ) (2025-06-23T14:57:06Z) - Visual and Semantic Prompt Collaboration for Generalized Zero-Shot Learning [58.73625654718187]
一般化されたゼロショット学習は、異なるクラス間で共有される意味情報の助けを借りて、目に見えないクラスと見えないクラスの両方を認識することを目的としている。
既存のアプローチでは、視覚的バックボーンをルッククラスのデータで微調整し、セマンティックな視覚的特徴を得る。
本稿では,効率的な特徴適応のためのプロンプトチューニング技術を活用した,視覚的・意味的プロンプト協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-29T10:17:57Z) - Vision-Language Meets the Skeleton: Progressively Distillation with Cross-Modal Knowledge for 3D Action Representation Learning [20.34477942813382]
スケルトンに基づく行動表現学習は、骨格配列を符号化することで人間の行動を理解し理解することを目的としている。
クロスモーダル・コントラッシブ・ラーニングに基づく新しいスケルトンベースのトレーニング・フレームワークを提案する。
提案手法は,従来の手法より優れ,最先端の結果が得られる。
論文 参考訳(メタデータ) (2024-05-31T03:40:15Z) - Iconic Gesture Semantics [87.00251241246136]
ジェスチャーの視覚的象徴的モデルの知覚的分類において、情報評価は拡張的な例示(例示)として表される。
視覚コミュニケーションのインスタンスの知覚的分類は、Frege/Montagueフレームワークとは異なる意味の概念を必要とする。
モデル理論評価から動的セマンティックフレームワークにおける推論的解釈まで,ジェスチャ表現の全範囲をカバーするアイコン的ジェスチャセマンティクスが導入された。
論文 参考訳(メタデータ) (2024-04-29T13:58:03Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Contextual Modulation for Relation-Level Metaphor Identification [3.2619536457181075]
本稿では,ある文法的関係の関連レベルの比喩表現を識別するための新しいアーキテクチャを提案する。
視覚的推論の研究にインスパイアされた方法論では、我々のアプローチは、深い文脈化された特徴にニューラルネットワークの計算を条件付けすることに基づいている。
提案したアーキテクチャは,ベンチマークデータセット上で最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-12T12:07:02Z) - Skeleton-Aware Networks for Deep Motion Retargeting [83.65593033474384]
骨格間のデータ駆動動作のための新しいディープラーニングフレームワークを提案する。
我々の手法は、トレーニングセットの運動間の明確なペアリングを必要とせずに、再ターゲティングの仕方を学ぶ。
論文 参考訳(メタデータ) (2020-05-12T12:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。